BeautifulSoup为一个python的数据清洗库。
一、初始化
初始化即把string格式的内容转化为可分析的xml格式语言。B的初始化和xpath有点像。
Xpath为:tree=etree.HTML(strintg).
BeautifulSoup为:soup=BeautifulSoup(string,‘lxml’)
二、找到标签
2.如何定位到一个标签:从长辈找起,可以通过属性attrs={’’:’’}或者文本(text=""or text=[’’,’’])来定位同一类中的某个具体标签,
无限嵌套find()来找到的标签。如果需要所有的某个标签,可以使用find_all
b=BeautifulSoup().find(“lable”,attrs={’’:’’})find(“lable”,attrs={’’:’’})
print(b)
三、查取标签的文本或者属性值
找到标签以后提取内容和属性:
提取标签内容:使用.text
提取标签属性值,像字典一样提取[]
print(soup.find(‘ul’,attrs={‘class’:‘list2’}).find_all(‘li’)[0][‘id’])
三、查看标签信息:
.name查看标签名;.attrs查看属性及其值;.has_attr(’’)通过返回的布尔值判断标签是否有此属性
for i in soup.body.find_all(True):
print(i.name)
print(i.attrs)
print(i.has_attr(‘class’ ))
#print(soup.body.find_all(‘p’)[1].name)
find_all的其他方法:
soup.find_all(‘span’, limit=2) # 限制只返回前两个
soup.find_all(‘span’, recursive=False) # 只查找子节点,不查找孙节点
四、父子兄弟标签
.parent 父标签
.parents 所有祖上标签
.next_sibling 和 .previous_sibling 同级,即兄弟标签,后一个和前一个
.children 生成所有子标签的迭代器