数据清洗之二:BeautifulSoup

BeautifulSoup为一个python的数据清洗库。

一、初始化

初始化即把string格式的内容转化为可分析的xml格式语言。B的初始化和xpath有点像。
Xpath为:tree=etree.HTML(strintg).
BeautifulSoup为:soup=BeautifulSoup(string,‘lxml’)

二、找到标签

2.如何定位到一个标签:从长辈找起,可以通过属性attrs={’’:’’}或者文本(text=""or text=[’’,’’])来定位同一类中的某个具体标签,
无限嵌套find()来找到的标签。如果需要所有的某个标签,可以使用find_all
b=BeautifulSoup().find(“lable”,attrs={’’:’’})find(“lable”,attrs={’’:’’})
print(b)

三、查取标签的文本或者属性值

找到标签以后提取内容和属性:
提取标签内容:使用.text
提取标签属性值,像字典一样提取[]
print(soup.find(‘ul’,attrs={‘class’:‘list2’}).find_all(‘li’)[0][‘id’])
三、查看标签信息:
.name查看标签名;.attrs查看属性及其值;.has_attr(’’)通过返回的布尔值判断标签是否有此属性
for i in soup.body.find_all(True):
print(i.name)
print(i.attrs)
print(i.has_attr(‘class’ ))
#print(soup.body.find_all(‘p’)[1].name)
find_all的其他方法:
soup.find_all(‘span’, limit=2) # 限制只返回前两个
soup.find_all(‘span’, recursive=False) # 只查找子节点,不查找孙节点

四、父子兄弟标签

.parent 父标签
.parents 所有祖上标签
.next_sibling 和 .previous_sibling 同级,即兄弟标签,后一个和前一个
.children 生成所有子标签的迭代器

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值