基础3·BeautifulSoup库（节点解析库）的使用方法

最新推荐文章于 2020-11-29 11:55:04 发布

楼上little黑

最新推荐文章于 2020-11-29 11:55:04 发布

阅读量637

点赞数 2

分类专栏：爬虫基础文章标签： Beautifulsoup使用

本文链接：https://blog.csdn.net/qq_44534317/article/details/89492064

版权

爬虫基础专栏收录该内容

6 篇文章 1 订阅

订阅专栏


#导入
from bs4 import BeautifulSoup


#解析
soup = BeautifulSoup(ret, "lxml")
ret: 需要解析的文本
lxml: 选择的解析器（包含：lxml，html.parser,）


# 文本修复
soup.prettify()


# 获取内容
soup.title.string
title.get_text()


# 获取下一个节点
soup.title.p
返回p的所有内容


# 获取该节点下的所有直接子节点（子节点里面包含的孙子节点也会获取到）
soup.title.contents
返回title下直接节点的所有内容（标签名字，属性，文本），直接提取即可
soup.title.childern
返回生成器类型，要获取内容要用for循环实现


# 获取所有子孙节点：
soup.title.descendants
返回生成器类型


# 方法选择器使用：
find_all(name, attrs, recursive, text, **kwargs)
name: 节点名字
soup.find_all(name='li')[0]
可加选择索引
li.find_all(name='ui')

attrs: 节点属性
soup.find_all(attrs={"id": "1223"})
soup.find_all(id='2132')
可以不使用attrs

text: 节点文本
可与正则搭配使用
soup.find_all(text=re.compile("我是小白"))

limit:返回个数
soup.find_all('a',limit=2)
只返回两个名字为a的标签

find_all的搭配使用
soup.find_all('div', class_='top')
寻到名字为div，class属性为top的所有标签

楼上little黑

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
基础3·BeautifulSoup库（节点解析库）的使用方法

导入：from bs4 import BeautifulSoup解析网页代码:soup=BeautifulSoup(ret,‘html.parser’) html.parser:解析器类型使用函数
复制链接

扫一扫