bs4的基本元素
Tag | 标签 |
Name | 名字 |
Attributes | 属性 |
NavigableString | 字符串 |
Comment | 注释字符串 |
遍历方法
1.下行遍历
.contents
.children
.descendants
2.上行遍历
.parent
.parents
3.平行遍历
.next_sibling
.previous_sibling
.next_sibilings
.previous_sibilings
信息提取的一般方法
1.完整解析信息的标记形式,再提取关键信息
优点:信息解析准确
缺点:提取过程繁琐,速度慢
2.无视标记形式,直接搜索关键信息
优点:提取简单,速度快
缺点:提取结果的准确性与信息内容直接相关
融合方法
结合上述两种方法进行信息提取。
假设,提取HTML中所有的URL链接
(1)搜索到所有标签
(2)解析标签格式,提取href后的链接内容
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo, "html.parser")
for link in soup.find_all('a'):
print (link.get(href'))