你要足够努力,才能够游刃有余
这篇文章会花一定的篇幅来描写bs4库中BeautifulSoup的一些基本使用方法,适用于爬虫的基础,不是特别的系统。
1.准备工作
首先找一个静态页面用来BeautifulSoup的基本测试。baidu.html下载
由于用于测试,它的属性比较简单。
2.bs4节点对象的基本属性
bs4将复杂的html文档转换为一个复杂的树形结构,每个节点都是python对象,所有对象的属性可以归纳为四种
-Tag
-NavigableString
-BeautifulSoup
-Comment
他所有节点的查找都是通过 BeautifulSoupf.标签名称 来查找的。
- Tag
from bs4 import BeautifulSoup
file = open("./baidu.html","rb")
html = file.read().decode("utf-8");
bs = BeautifulSoup(html,"html.parser") #以html的形式解析
# 1.Tag 标签及内容;拿到它所找的第一个内容
print(bs.title) #找到第一个title节点以及里面的内容
print(type(bs.title)) #类型为Tag
运行结果:
- NavigableString
# 2.NavigableString 类型;标签里的内容,字符串
print(bs.title.string) #提取Tag里面的字符串
print(type(bs.title.string)) #类型为NavigableString
print(bs.a.attrs) #以键值对的形式保存内容
运行结果: