Beautiful Soup库的使用

Beautiful Soup是借助网页的结构和属性等特性来解析网页,先看一些例子:

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>','lxml')
print(soup.p.string)#获取p标签的字符串
from bs4 import BeautifulSoup
html = ''
soup = BeautifulSoup(html,'lxml')#创建一个Beautiful Soup对象lxml表示解析器的类型是lxml
print(soup.prettify())#把要解析的字符串以标准的缩进格式输出
print(soup.title.string)

string属性可以获取文本值,那怎么样可以获取节点的属性值呢?

name属性可以获取节点名称:

print(soup.title.name)

但节点可能有多个属性值,通过attrs可以获取所有属性:

print(soup.p.attrs)
print(soup.p.attrs['name'])

attrs的返回结果是字典类型,它将属性和属性值组合成了一个字典,因此可以用soup.p.attrs['name']可以得到name属性的值,还有更简洁的写法也可以得到属性对应的值:

soup.p['name']
soup.p['class']

关联选择:

在做选择的时候有时候不能做到一步就选到想要的节点元素。需要先选中某一个节点元素,然后以它为基准再选择它的子节点、父节点、兄弟节点等。

contents属性可以获取当前节点的直接子节点:

print(soup.p.contents)

它以列表的形式返回直接子节点而不会返回孙子节点。

children也可以达到同样的结果,但是它返回的是一个生成器需要用for循环来遍历所有的结果:

for i,child in enumerate(soup.p.children):
    print(i,child)

如果要得到所有的子孙节点的话就需要调用descendants属性,它的返回值同样是生成器类型:

for i,child in enumerate(soup.p.descendants):
    print(i,child)

用parent属性可以得到某个节点的父节点,但要注意只是得到直接父节点及其所有内容,如果要获得所有的祖先节点可以用parents属性。

调用next_sibling和previous_sibling分别获取下一个和上一个兄弟节点,next_siblings和previous_siblings可以获得所有前面和后面的兄弟节点生成器。

当选择比较复杂的时候通过属性进行选择就显得力不从心了,这时候就需要用到它的方法选择器:

find_all():查询所有符合条件的元素,只需要传入一些属性或文本就可以得到符合条件的元素,原型如下:

find_all(name,attrs,recursive,text,**kwargs)

name:根据节点名来进行查询例如:soup.find_all(name='ul')表示查询所有ul节点,返回结果是列表类型。

attrs:根据条件来进行查询,是一个字典类型例如:soup.find_all(attrs={'id':'list-1'})表示要查询id为list-1的节点。

text:用于匹配节点的文本,传入的形式可以是文本、字符串或者正则表达式,例如:soup.find_all(text=re.compile('link'))返回所有匹配正则表达式的节点文本组成的列表。

find():它返回第一个匹配的节点,例如:soup.find(‘name’='ul')返回第一个name=ul的节点。

find_parents()和find_parent()返回所有父节点和直接父节点。还有的方法分别是:find_next_siblings()、find_next_sibling()、find_previous_siblings()、find_previous_sibling()、find_all_next():返回节点后所有符合条件的节点,find_next():返回第一个符合条件的节点、find_all_previous()、find_previoust()。

Beautiful Soup还提供了CSS选择器,只需调用select()方法即可,例如:soup.select('ul li')选择所有ul节点下的所有li节点。select()方法也支持嵌套选择,例如先选择所有的ul节点,再遍历每个ul节点,选择器li节点:

from bs4 import BeautifulSoup
html = ''
soup = BeautifulSoup(html,'lxml')
for ul in soup.select('ul'):
    print(ul.select('li'))

现在尝试获取每个ul节点的id属性:

from bs4 import BeautifulSoup
html = ''
soup = BeautifulSoup(html,'lxml')
for ul in soup.select('ul'):
    print(ul['id'])
    print(ul.attrs['id'])

利用string属性和get_text()方法都可以获取文本:

from bs4 import BeautifulSoup
html = ''
soup = BeautifulSoup(html,'lxml')
for li in soup.select('li'):
    print(li.string)
    print(li.get_text())

 

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值