BeautifulSoup是Python的一个库,最主要的功能就是从网页爬取我们需要的数据。
BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,
BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,
相对于正则表达式的方式,可以大大简化处理过程。
BeautifulSoup总结:
BeautifulSoup的三种解析方式:
soup1 = BeautifulSoup(html, "lxml") # lxml解析方式 速度快容错能力强 soup2 = BeautifulSoup(html, "html.parser") # 常规网页解析方式 python内置标准库,执行速度快 soup3 = BeautifulSoup(html, "html5lib") # html5解析方式 以浏览器方式解析最好容错性 速度慢
结合requests 读取网页内容之后利用BeautifulSoup变成一个soup对象:
response = requests.get("http://www.youzi4.cc/")#请求url html=response.text #读取网页源代码 soup=BeautifulSoup(html,