关于find和find_all()文本的使用
爬取网页中有用的信息时,通常是对存在于网页中的文本或各种不同标签的属性值进行查找,Beautiful Soup中内置了一些查找方式,最常用的是find()和find_all()函数。
1.find()函数的用法
find(name=None, attrs={}, recursive=True, text=None, **kwargs) 函数的参数:
参数名 作用
name 查找标签
text 查找文本
attrs 基于attrs参数,可以用来查找想要匹配的标签内容

如上图想获得标签a里的内容可以
find(‘div’,{‘class’:‘positionInfo’}).find_all(‘a’)即可
2.find()文本的提取
find()函数每次只能匹配并返回一个结果
find()函数返回来的结果可以使用get_text()取除标签,获得文本,或者直接在后面加 .text
1.finl_all()函数的用法
find_all返回所有匹配到的结果,区别于find(find只返回查找到的第一个结果)
相比find(),find_all()有个额外的参数limit,如下所示:
p=soup.find_all(‘div’,{‘class’:‘positionInfo’,limit=2)
实际上find()也就是当limit=1时的find_all()。
2.find_all()文本的提取
find_all()并不能像find一样直接在后面添加text
需要使用for循环,如

关于find和find_all的用法先学习这么多,如果后面有涉及到更深入再去研究。
6724

被折叠的 条评论
为什么被折叠?



