Python-BeautifulSoup

最新推荐文章于 2024-08-21 20:47:35 发布

Ethan 555

最新推荐文章于 2024-08-21 20:47:35 发布

阅读量117

点赞数

本文链接：https://blog.csdn.net/qq_35751843/article/details/105069883

版权

是解析、遍历、维护”标签树”的功能库。

可以解析HTML，XML。

安装

pip install beautifulsoup4

解析器

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk,’html.parser’)	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk,’lxml’)	pip install lxml
lxml的XML的解析器	BeautifulSoup(mk,’xml’)	pip install lxml
html5lib的解析器	BeautifulSoup(mk,’html5lib’)	pip install html5lib

BeautifulSoup对象的组成对象

BeautifulSoup对象

通过以下代码就可以得到一个BeautifulSoup对象。

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

可以直接通过soup.<tag name>来取得第一个对应的tag。如soup.div

如果要找到多个，使用find_all()方法。

方法

方法	说明
get_text()	从文档中获取所有文字内容

Tag对象

Tag 对象与XML或HTML原生文档中的tag相同。

标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾。

属性	说明
Name	标签的名字,<p>…</p>的名字为”p”，格式:<tag>.name
Attributes	标签的属性，字典形式，格式:<tag>.attrs
Contents	格式：<tag>.contents
NavigableString	标签内非属性字符串，<>…<.>中的字符串，格式:<tag>.string
Comment	标签内字符串的注释部分，Comment 对象是一个特殊类型的 NavigableString 对象

tag的属性可以被添加,删除或修改。tag的属性操作方法与字典一样。

tag['class'] = 'class1'

NavigableString对象

标签内非属性字符串，<>…<.>中的字符串，格式:<tag>.string

Comment对象

标签内字符串的注释部分，Comment 对象是一个特殊类型的 NavigableString 对象

Beautiful Soup中定义的其它类型都可能会出现在XML的文档中: CData , ProcessingInstruction , Declaration , Doctype .与 Comment 对象类似,这些类都是 NavigableString 的子类,只是添加了一些额外的方法的字符串独享.下面是用CDATA来替代注释的例子:

from bs4 import CData
cdata = CData("A CDATA block")
comment.replace_with(cdata)

print(soup.b.prettify())
# <b>
#  <![CDATA[A CDATA block]]>
# </b>

多值属性

HTML 4定义了一系列可以包含多个值的属性.在HTML5中移除了一些,却增加更多.最常见的多值的属性是 class (一个tag可以有多个CSS的class). 还有一些属性 rel , rev , accept-charset , headers , accesskey . 在Beautiful Soup中多值属性的返回类型是list。

css_soup = BeautifulSoup('<p class="body strikeout"></p>')
css_soup.p['class']
# ["body", "strikeout"]

css_soup = BeautifulSoup('<p class="body"></p>')
css_soup.p['class']
# ["body"]

如果某个属性看起来好像有多个值,但在任何版本的HTML定义中都没有被定义为多值属性,那么Beautiful Soup会将这个属性作为字符串返回。

id_soup = BeautifulSoup('<p id="my id"></p>')
id_soup.p['id']
# 'my id'

将tag转换成字符串时,多值属性会合并为一个值

rel_soup = BeautifulSoup('<p>Back to the <a rel="index">homepage</a></p>')
rel_soup.a['rel']
# ['index']
rel_soup.a['rel'] = ['index', 'contents']
print(rel_soup.p)
# <p>Back to the <a rel="index contents">homepage</a></p>

如果转换的文档是XML格式,那么tag中不包含多值属性

xml_soup = BeautifulSoup('<p class="body strikeout"></p>', 'xml')
xml_soup.p['class']
# u'body strikeout'

标签树的遍历

标签树的下行遍历

属性	说明
.contents	子节点的列表，将<tag>所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

标签树的上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

标签树的平行遍历

平等遍历必需发生在同一个父节下的各节点间。

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

方法

方法	说明
<>.prettify()	将HTML更友好的显示
<>.find_all()	返回一个列表类型，存储查找的结果

扩展方法

方法	说明
<>.find()	搜索且只返回一个结果，字符串类型，同find_all()参数
<>.find_parent()	在先辈节点中返回一个结果，字符串类型，同find_all()参数
<>.find_parents()	在先辈节点中搜索，返回列表类型，同find_all()参数
<>.find_next_sibling()	在后续平行节点中返回一个结果，字符串类型，，同find_all()参数
<>.find_next_siblings()	在后续平行节点中搜索，返回列表类型，同find_all()参数
<>.find_previous_sibling()	在前序平行节点中返回一个结果，字符串类型，同find_all()参数
<>.find_previous_siblings()	在前序平行节点中搜索，返回列表类型，同find_all()参数

<>.find_all()

语法

<>.find_all(name,attrs,recursive,string,**kwargs)

name
对标签名称的检索字符串
attrs
对标签属性的检索字符串，可标注属性检索
recursive
是否对子孙全部检索，默认为True
string
对<>…</>中字符串区域进行检索的字符串

注意：

<tag>(…) 等价于 <tag>.find_all(…)
soup(…) 等价于 soup.find_all(…)

使用实例

一般使用方法

先创建一个BeautifulSoup对象。

from bs4 import BeautifulSoup
import re
import requests
r = requests.get('http://www.baidu.com')
r.encoding = r.apparent_encoding
t = r.text
soup = BeautifulSoup(t,'html.parser')

查找所有链接。

for link in soup.find_all('a'):
    print(link)

<a class="mnav" href="http://news.baidu.com" name="tj_trnews">新闻</a> <a class="mnav" href="http://www.hao123.com" name="tj_trhao123">hao123</a> <a class="mnav" href="http://map.baidu.com" name="tj_trmap">地图</a> <a class="mnav" href="http://v.baidu.com" name="tj_trvideo">视频</a> <a class="mnav" href="http://tieba.baidu.com" name="tj_trtieba">贴吧</a> <a class="lb" href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1" name="tj_login">登录</a> <a class="bri" href="//www.baidu.com/more/" name="tj_briicon" style="display: block;">更多产品</a> <a href="http://home.baidu.com">关于百度</a> <a href="http://ir.baidu.com">About Baidu</a> <a href="http://www.baidu.com/duty/">使用百度前必读</a> <a class="cp-feedback" href="http://jianyi.baidu.com/">意见反馈</a>

传递正则表达式

我们在使用find_all时，直接填写字符串是精确搜索，传递正则表达式时，才可以进行匹配查找。

查找以“a”为开头的标签名的标签。

for tag in soup.find_all(re.compile('^a')):
    print(tag)

Tags: BeautifulSoup