Bs4
BeautifulSoup简介
BeautifulSoup将复杂的html文档转换成一个复杂的树形结构,每个节点都是python对象,所有的对象可分为四类。
- Tag 标签及其内容:只能拿到它所找到的第一个内容
- NavigableString 标签里的内容(字符串)
- BeautifulSoup 整个文档
- Comment 这是一个特殊的NavigableString,输出的内容不包含注释符号

文档的遍历

文档的搜索
- 字符串过滤:会查找与字符串完全匹配的内容

- 正则表达式搜索:使用search()方法来匹配内容

- 传入一个函数,根据函数的要求来搜索

- kwargs 参数

- text参数

- limit参数

- css选择器


被折叠的 条评论
为什么被折叠?



