- 博客(3)
- 资源 (4)
- 收藏
- 关注
原创 BeautifulSoup应用笔记(3)- 搜索文档树
搜索文档树 过滤器 过滤器可以被用在tag的name中、节点的属性中、字符串中或它们的混合中。过滤器包括字符串、增则表达式、列表、True及方法。 字符串 会查找与字符串完整匹配的内容: soup.find_all('b') # [The Dormouse's story] 正则表达式 会通过正则表达式的match()进行匹配: for tag in soup.find_all(r
2015-11-24 14:11:37 608
原创 BeautifulSoup应用笔记(1)- 解析器及对象类型
解析器 BeautifulSoup支持Python标准库中的HTML解析器(html.parser),还支持一些第三方的解析器,如:lxml、html5lib,官方推荐使用lxml(优势:速度快、支持xml)作为解析器。 经过实践,html5lib的兼容性最佳,html.parser和lxml无法正确解析的复杂的html文档(包含多个iframe框架,应用find_all("iframe")获
2015-11-20 10:23:28 2703
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人