一 bs4的使用
1.1.创建指定页面对应的解析器
BeautifulSoup(需要解析的文档数据, 解析器类型-lxml)
soup = BeautifulSoup(html, 'lxml')
print(soup)
1.2.标签选择器
解析器对象.标签名 - 解析器对象中第一个指定标签
- 获取soup对应页面中第一个title标签
print(soup.title)
- 获取soup中第一个p标签中的第一个font标签
print(soup.p.font)
1.3. 获取标签名、标签属性和标签内容
- 标签名:标签对象.name
print(soup.title.name)
- 标签属性:
标签对象.attrs - 获取指定标签所有的属性和值对应的字典
标签对象.attrs[属性名]
print(soup.a.attrs)
print(soup.a.attrs['href'])
- 标签内容
标签对象.string - 获取标签中的文本内容(如果内容是标签返回子标签中的文本内容,如果文本和子标签同时存在就返回None)
print