Beautiful Soup 解析HTML页面
代码
from bs4 import BeautifulSoup
soup=BeautifulSoup('<p>data</p>','html.parser')
#'<p>data</p>'可以是使用requests库从html页面上爬取的源代码,还可以写成打开html/xml文件的形式open("D://demo.html")
#'html.parser'是html解析器
BeautifulSoup库作用是解析、遍历和维护“标签树”
HTML文件、标签树和BeautifulSoup类等价
BeautifulSoup对应一个HTML/XML文档的全部内容
BeautifulSoup库的解析器
bs4的HTML解析器:‘html.parser’
lxml的H