Beautiful Soup是借助网页的结构和属性等特性来解析网页,先看一些例子:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>','lxml')
print(soup.p.string)#获取p标签的字符串
from bs4 import BeautifulSoup
html = ''
soup = BeautifulSoup(html,'lxml')#创建一个Beautiful Soup对象lxml表示解析器的类型是lxml
print(soup.prettify())#把要解析的字符串以标准的缩进格式输出
print(soup.title.string)
string属性可以获取文本值,那怎么样可以获取节点的属性值呢?
name属性可以获取节点名称:
print(soup.title.name)
但节点可能有多个属性值,通过attrs可以获取所有属性:
print(soup.p.attrs)
print(soup.p.attrs['name'])
attrs的返回结果是字典类型,它将属性和属性值组合成了一个字典,因此可以用soup.p.attrs['name']可以得到name属性的值,还有更简洁的写法也可以得到属性对应的值:
soup.p['name']
soup.p['class']
关联选择:
在做选择的时候有时候不能做到一步就选到想要的节点元素。需要先选中某一个节点元素,然后以它为基准再选择它的子节点、父节点、兄弟节点等。
contents属性可以获取当前节点的直接子节点:
print(soup.p.contents)
它以列表的形式返回直接子节点而不会返回孙子节点。
children也可以达到同样的结果,但是它返回的是一个生成器需要用for循环来遍历所有的结果:
for i,child in enumerate(soup.p.children):
print(i,child)
如果要得到所有的子孙节点的话就需要调用descendants属性,它的返回值同样是生成器类型:
for i,child in enumerate(soup.p.descendants):
print(i,child)
用parent属性可以得到某个节点的父节点,但要注意只是得到直接父节点及其所有内容,如果要获得所有的祖先节点可以用parents属性。
调用next_sibling和previous_sibling分别获取下一个和上一个兄弟节点,next_siblings和previous_siblings可以获得所有前面和后面的兄弟节点生成器。
当选择比较复杂的时候通过属性进行选择就显得力不从心了,这时候就需要用到它的方法选择器:
find_all():查询所有符合条件的元素,只需要传入一些属性或文本就可以得到符合条件的元素,原型如下:
find_all(name,attrs,recursive,text,**kwargs)
name:根据节点名来进行查询例如:soup.find_all(name='ul')表示查询所有ul节点,返回结果是列表类型。
attrs:根据条件来进行查询,是一个字典类型例如:soup.find_all(attrs={'id':'list-1'})表示要查询id为list-1的节点。
text:用于匹配节点的文本,传入的形式可以是文本、字符串或者正则表达式,例如:soup.find_all(text=re.compile('link'))返回所有匹配正则表达式的节点文本组成的列表。
find():它返回第一个匹配的节点,例如:soup.find(‘name’='ul')返回第一个name=ul的节点。
find_parents()和find_parent()返回所有父节点和直接父节点。还有的方法分别是:find_next_siblings()、find_next_sibling()、find_previous_siblings()、find_previous_sibling()、find_all_next():返回节点后所有符合条件的节点,find_next():返回第一个符合条件的节点、find_all_previous()、find_previoust()。
Beautiful Soup还提供了CSS选择器,只需调用select()方法即可,例如:soup.select('ul li')选择所有ul节点下的所有li节点。select()方法也支持嵌套选择,例如先选择所有的ul节点,再遍历每个ul节点,选择器li节点:
from bs4 import BeautifulSoup
html = ''
soup = BeautifulSoup(html,'lxml')
for ul in soup.select('ul'):
print(ul.select('li'))
现在尝试获取每个ul节点的id属性:
from bs4 import BeautifulSoup
html = ''
soup = BeautifulSoup(html,'lxml')
for ul in soup.select('ul'):
print(ul['id'])
print(ul.attrs['id'])
利用string属性和get_text()方法都可以获取文本:
from bs4 import BeautifulSoup
html = ''
soup = BeautifulSoup(html,'lxml')
for li in soup.select('li'):
print(li.string)
print(li.get_text())