BeautifulSoup补充

最新推荐文章于 2022-02-21 17:04:32 发布

甜瓜黍叔

最新推荐文章于 2022-02-21 17:04:32 发布

阅读量336

点赞数 2

分类专栏：网络爬虫文章标签： BeautifulSoup HTML解析

本文链接：https://blog.csdn.net/clany888/article/details/84332195

版权

网络爬虫专栏收录该内容

13 篇文章 0 订阅

订阅专栏

此博文是对之前博文的补充：https://blog.csdn.net/Clany888/article/details/81986302

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml') # 不标准的HTML字符串BeautifulSoup可以自动更正格式

soup.prettify() # 将要解析的字符串按照标准缩进格式输出，结果中含有bady和html节点

1、节点选择器

直接调用节点的名称就可以选择节点元素，再调用string属性就可以得到节点内的文本啦。

提取信息：

节点属性：

获取名称：

可以使用soup.title.name 利用name获取节点的名称

获取属性：

可以使用soup.p.attrs 利用attrs获取所有属性，返回字典。通过字典读取具体的值
还可以直接在节点元素后面加[ ]中括号，传入属性名就可以获取属性值了，这里需要注

意有的返回的结果是字符串（单个），有的返回的结果是列表（多个的时候）。

获取内容：

可以利用string属性获取节点元素包含的文本内容。例如想要获取一个p节点的文本内容

soup.p.string

嵌套选择：

上面每一个返回的结果都是bs4.element.Tag类型，它同样可以继续调用节点进行下一步的选择。

soup.head.title

soup.head.title.string

关联选择：

在做选择的时候有时候不能做到一步就选到想要的节点元素，需要想选中某一个节点元素，然后以它为基准再选择它的的子节点、父节点、兄弟节点等

子节点和子孙节点

选取节点元素后，如果想要获取它的直接子节点，就可以调用contents属性。（返回结果是列表形式，p节点里既包含文本，又包含节点，最后会将它们以列表的形式统一返回；列表里面的每个元素都是p节点的直接子节点。比如第一个a节点里面包含一层span节点，这相当于孙子节点了，但是返回结果并没有单独把span节点选出来，所以说，contents属性得到的结果是直接子节点的列表）
同样，可以调用children属性得到相应的结果；

soup.p.children

for i,child in enumerate(soup.p.children):

print(i,child)

调用children属性来选择，返回结果是生成器类型。利用for输出相应的内容。

如果想要得到所有的子孙节点的话，可以调用descendants属性；

返回结果也是生成器，遍历输出一下可以看到，这次输出的结果就包含了span节点。descendants会递归查询所有子节点，得到所有的子孙节点。

父节点和祖先节点

如果想要获取某个节点元素的父节点，可以调用parent属性；输出结果为父节点及其内部的内容包括内部的节点。（注意，这里parent获取到的仅仅是直接父节点，而没有再向外寻找节点的祖先节点）
如果想要获取所有的祖先节点，可以调用parents属性；返回结果是生成器类型。

兄弟节点（兄弟节点即同级的节点）

soup.a.next_sibling和previous_sibling分别获取节点的下一个和上一个兄弟元素
next_siblings 和 previous_siblings 分别返回所有前面和后面的兄弟节点的生成器。

提取信息

soup.a.next_sibling........soup.a.next_sibling.string.......soup.a.parents[0].attrs['class'].....类似的方法

2、方法选择器

find_all(name , attrs , recursive , text , **kwargs)

name:可以根据节点名来查询元素

attrs:传入属性来查询；soup.find_all(attrs={'id':'list_id'})

text:参数用来匹配节点的文本，传入的形式可以是字符串，也可以是正则表达式对象。soup.find_all(text=re.compile('link'))

find

find返回的是单个元素，也就是第一个匹配的元素，而findall返回的是所有匹配的元素组成的列表。

find_parents()和find_parent():前者返回所有祖先节点，后者返回直接父节点

find_next_sublings()和find_next_sibling():前者返回后面所有的兄弟节点，后者返回后面第一个兄弟节点。

find_previous_siblings()和find_previous_sibling():前者返回前面所有的兄弟节点，后者返回前面第一个兄弟节点。

find_all_next()和find_next(): 前者返回节点后所有符合条件的节点，后者返回第一个符合条件的节点。

find_all_previous()和find_previous():

3、CSS选择器

使用CSS选择器时，只需要调用select()方法，传入相应的CSS选择器即可。

soup.select('.panel .panel-heading')

soup.select('ul li') # 选择所有ul节点下面的所有li节点，结果便是所有的li节点组成的列表。

soup.select(('ul')[0] # 仍然是Tag类型

嵌套选择

select()方法同样支持嵌套选择。例如先选择所有ul节点，再遍历每个ul节点，选择其li节点。

获取属性

因为节点的类型是Tag类型，所以获取属性还可以用原来的方法。

for ul in soup.select('ul'):

print(ul['id'])

print(ul.attrs['id'])

可以看到，直接传入中括号和属性名，以及通过attrs属性获取属性值，都OK。

获取文本

获取文本同样可以使用string。此外，还可以使用 get_text()

for li in soup.select('li'):

print('String:', li.string)

print('Get Text:', li.get_text())

---END---

甜瓜黍叔

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BeautifulSoup补充

此博文是对之前博文的补充：https://blog.csdn.net/Clany888/article/details/81986302from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml') # 不标准的HTML字符串BeautifulSoup可以自动更正格式soup.prettify() # 将要解析的字符串按照...
复制链接

扫一扫