Beautiful Soup库的使用

最新推荐文章于 2023-04-15 14:02:49 发布

Alphapeople

最新推荐文章于 2023-04-15 14:02:49 发布

阅读量436

点赞数 2

分类专栏：爬虫文章标签： Beautiful Soup

本文链接：https://blog.csdn.net/weixin_38241876/article/details/86538639

版权

爬虫专栏收录该内容

34 篇文章 4 订阅

订阅专栏

Beautiful Soup是借助网页的结构和属性等特性来解析网页，先看一些例子：

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>','lxml')
print(soup.p.string)#获取p标签的字符串

from bs4 import BeautifulSoup
html = ''
soup = BeautifulSoup(html,'lxml')#创建一个Beautiful Soup对象lxml表示解析器的类型是lxml
print(soup.prettify())#把要解析的字符串以标准的缩进格式输出
print(soup.title.string)

string属性可以获取文本值，那怎么样可以获取节点的属性值呢？

name属性可以获取节点名称：

print(soup.title.name)

但节点可能有多个属性值，通过attrs可以获取所有属性：

print(soup.p.attrs)
print(soup.p.attrs['name'])

attrs的返回结果是字典类型，它将属性和属性值组合成了一个字典，因此可以用soup.p.attrs['name']可以得到name属性的值，还有更简洁的写法也可以得到属性对应的值：

soup.p['name']
soup.p['class']

关联选择：

在做选择的时候有时候不能做到一步就选到想要的节点元素。需要先选中某一个节点元素，然后以它为基准再选择它的子节点、父节点、兄弟节点等。

contents属性可以获取当前节点的直接子节点：

print(soup.p.contents)

它以列表的形式返回直接子节点而不会返回孙子节点。

children也可以达到同样的结果，但是它返回的是一个生成器需要用for循环来遍历所有的结果：

for i,child in enumerate(soup.p.children):
    print(i,child)

如果要得到所有的子孙节点的话就需要调用descendants属性，它的返回值同样是生成器类型：

for i,child in enumerate(soup.p.descendants):
    print(i,child)

用parent属性可以得到某个节点的父节点，但要注意只是得到直接父节点及其所有内容，如果要获得所有的祖先节点可以用parents属性。

调用next_sibling和previous_sibling分别获取下一个和上一个兄弟节点，next_siblings和previous_siblings可以获得所有前面和后面的兄弟节点生成器。

当选择比较复杂的时候通过属性进行选择就显得力不从心了，这时候就需要用到它的方法选择器：

find_all()：查询所有符合条件的元素，只需要传入一些属性或文本就可以得到符合条件的元素，原型如下：

find_all(name,attrs,recursive,text,**kwargs)

name：根据节点名来进行查询例如：soup.find_all(name='ul')表示查询所有ul节点，返回结果是列表类型。

attrs：根据条件来进行查询，是一个字典类型例如：soup.find_all(attrs={'id':'list-1'})表示要查询id为list-1的节点。

text：用于匹配节点的文本，传入的形式可以是文本、字符串或者正则表达式，例如：soup.find_all(text=re.compile('link'))返回所有匹配正则表达式的节点文本组成的列表。

find()：它返回第一个匹配的节点，例如：soup.find(‘name’='ul')返回第一个name=ul的节点。

find_parents()和find_parent()返回所有父节点和直接父节点。还有的方法分别是：find_next_siblings()、find_next_sibling()、find_previous_siblings()、find_previous_sibling()、find_all_next()：返回节点后所有符合条件的节点，find_next()：返回第一个符合条件的节点、find_all_previous()、find_previoust()。

Beautiful Soup还提供了CSS选择器，只需调用select()方法即可，例如：soup.select('ul li')选择所有ul节点下的所有li节点。select()方法也支持嵌套选择，例如先选择所有的ul节点，再遍历每个ul节点，选择器li节点：

from bs4 import BeautifulSoup
html = ''
soup = BeautifulSoup(html,'lxml')
for ul in soup.select('ul'):
    print(ul.select('li'))

现在尝试获取每个ul节点的id属性：

from bs4 import BeautifulSoup
html = ''
soup = BeautifulSoup(html,'lxml')
for ul in soup.select('ul'):
    print(ul['id'])
    print(ul.attrs['id'])

利用string属性和get_text()方法都可以获取文本：

from bs4 import BeautifulSoup
html = ''
soup = BeautifulSoup(html,'lxml')
for li in soup.select('li'):
    print(li.string)
    print(li.get_text())

Alphapeople

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Beautiful Soup库的使用

Beautiful Soup是借助网页的结构和属性等特性来解析网页，先看一些例子：from bs4 import BeautifulSoupsoup = BeautifulSoup('&lt;p&gt;Hello&lt;/p&gt;','lxml')print(soup.p.string)#获取p标签的字符串from bs4 import BeautifulSouphtml = ...
复制链接

扫一扫