数据清洗之二：BeautifulSoup

最新推荐文章于 2023-08-17 07:39:02 发布

张愿斌

最新推荐文章于 2023-08-17 07:39:02 发布

阅读量813

点赞数 1

分类专栏：爬虫基础文章标签：数据清洗 BeautifulSoup

本文链接：https://blog.csdn.net/szyyzt/article/details/102822713

版权

爬虫基础专栏收录该内容

6 篇文章 0 订阅

订阅专栏

BeautifulSoup为一个python的数据清洗库。

一、初始化

初始化即把string格式的内容转化为可分析的xml格式语言。B的初始化和xpath有点像。
Xpath为:tree=etree.HTML(strintg).
BeautifulSoup为：soup=BeautifulSoup（string，‘lxml’）

二、找到标签

2.如何定位到一个标签：从长辈找起，可以通过属性attrs={’’:’’}或者文本（text=""or text=[’’,’’]）来定位同一类中的某个具体标签，
无限嵌套find（）来找到的标签。如果需要所有的某个标签，可以使用find_all
b=BeautifulSoup().find(“lable”,attrs={’’:’’})find(“lable”,attrs={’’:’’})
print(b)

三、查取标签的文本或者属性值

找到标签以后提取内容和属性：
提取标签内容：使用.text
提取标签属性值，像字典一样提取[]
print(soup.find(‘ul’,attrs={‘class’:‘list2’}).find_all(‘li’)[0][‘id’])
三、查看标签信息：
.name查看标签名；.attrs查看属性及其值；.has_attr(’’)通过返回的布尔值判断标签是否有此属性
for i in soup.body.find_all(True):
print(i.name)
print(i.attrs)
print(i.has_attr(‘class’ ))
#print(soup.body.find_all(‘p’)[1].name)
find_all的其他方法：
soup.find_all(‘span’, limit=2) # 限制只返回前两个
soup.find_all(‘span’, recursive=False) # 只查找子节点，不查找孙节点

四、父子兄弟标签

.parent 父标签
.parents 所有祖上标签
.next_sibling 和 .previous_sibling 同级，即兄弟标签，后一个和前一个
.children 生成所有子标签的迭代器

张愿斌

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据清洗之二：BeautifulSoup

BeautifulSoup为一个python的数据清洗库。一、初始化初始化即把string格式的内容转化为可分析的xml格式语言。B的初始化和xpath有点像。Xpath为:tree=etree.HTML(strintg).BeautifulSoup为：soup=BeautifulSoup（string，‘lxml’）二、找到标签2.如何定位到一个标签：从长辈找起，可以通过属性attr...
复制链接

扫一扫