#导入
from bs4 import BeautifulSoup
#解析
soup = BeautifulSoup(ret, "lxml")
ret: 需要解析的文本
lxml: 选择的解析器(包含:lxml,html.parser,)
# 文本修复
soup.prettify()
# 获取内容
soup.title.string
title.get_text()
# 获取下一个节点
soup.title.p
返回p的所有内容
# 获取该节点下的所有直接子节点(子节点里面包含的孙子节点也会获取到)
soup.title.contents
返回title下直接节点的所有内容(标签名字,属性,文本),直接提取即可
soup.title.childern
返回生成器类型,要获取内容要用for循环实现
# 获取所有子孙节点:
soup.title.descendants
返回生成器类型
# 方法选择器使用:
find_all(name, attrs, recursive, text, **kwargs)
name: 节点名字
soup.find_all(name='li')[0]
可加选择索引
li.find_all(name='ui')
attrs: 节点属性
soup.find_all(attrs={"id": "1223"})
soup.find_all(id='2132')
可以不使用attrs
text: 节点文本
可与正则搭配使用
soup.find_all(text=re.compile("我是小白"))
limit:返回个数
soup.find_all('a',limit=2)
只返回两个名字为a的标签
find_all的搭配使用
soup.find_all('div', class_='top')
寻到名字为div,class属性为top的所有标签
基础3·BeautifulSoup库(节点解析库)的使用方法
最新推荐文章于 2020-11-29 11:55:04 发布