Python BeautifulSoup的 find() 和 findAll()

最新推荐文章于 2024-02-24 19:08:37 发布

还是瓜瓜好

最新推荐文章于 2024-02-24 19:08:37 发布

阅读量5.9k

点赞数 2

分类专栏： Python 文章标签： findAll find

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tingguan/article/details/97627700

版权

Python 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

BeautifulSoup 里的 find() 和 findAll() 可能是你最常用的两个函数。借助它们，你可以通
过标签的不同属性轻松地过滤 HTML 页面，查找需要的标签组或单个标签

BeautifulSoup 文档里两者的定义就是这样：

findAll(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords)

很可能你会发现，自己在 95% 的时间里都只需要使用前两个参数： tag 和 attributes,但是我们应该还是仔细观察所有的参数

标签参数 tag ：传一个标签的名称或多个标签名称组成的 Python列表做标签参数。

例如，下面的代码将返回一个包含 HTML 文档中所有标题标签的列表： .findAll({"h1","h2","h3","h4","h5","h6"})

属性参数 attributes ：是用一个 Python 字典封装一个标签的若干属性和对应的属性值。

例如，下面这个函数会返回 HTML 文档里红色与绿色两种颜色的 span 标签：.findAll("span", {"class":{"green", "red"}}

递归参数 recursive 是一个布尔变量，如果recursive 设置为 True ， findAll 就会根据你的要求去查找标签参数的所有子标签，以及子
标签的子标签。如果 recursive 设置为 False ， findAll 就只查找文档的一级标签。 findAll默认是支持递归查找的（ recursive 默认值是 True ）；一般情况下这个参数不需要设置，除非你真正了解自己需要哪些信息，而且抓取速度非常重要，那时你可以设置递归参数。

文本参数 text：是用标签的文本内容去匹配，而不是用标签的属性。

范围限制参数 limit ：只用于 findAll 方法。 find 其实等价于 findAll 的 limit 等于1 时的情形。如果你只对网页中获取的前 x 项结果感兴趣，就可以设置它。但是要注意，这个参数设置之后，获得的前几项结果是按照网页上的顺序排序的，未必是你想要的那前几项。

还有一个关键词参数 keyword：可以让你选择那些具有指定属性的标签，例如：

allText = bsObj.findAll(id="text")
print(allText[0].get_text())

还是瓜瓜好

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
Python BeautifulSoup的 find() 和 findAll()

BeautifulSoup 里的 find() 和 findAll() 可能是你最常用的两个函数。借助它们，你可以通过标签的不同属性轻松地过滤 HTML 页面，查找需要的标签组或单个标签BeautifulSoup 文档里两者的定义就是这样：findAll(tag, attributes, recursive, text, limit, keywords)find(tag, attrib...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。