安装
pip install beautifulsoup4
pip install lxml
使用
1. 导入html文档
soup = BeautifulSoup(html_doc,'lxml')
2.获取标题的内容
print(soup.title.string)
3.获取 p 标签里面的内容
print(soup.p.string)
4.获取 title 的父级标签
print(soup.title.parent.name)
5.获取超链接
print(soup.a)
6.获取所有超链接
print(soup.find_all('a'))
7.获取 id 为 link2 的超链接
print(soup.find(id="link2"))
8.获取网页中所有的内容
print(soup.get_text())
9.使用css选择器匹配
soup = BeautifulSoup(html_doc,'lxml')
print(soup.select("title"))
print(soup.select("body a"))
print(soup.select("p > #link1"))