BeautifulSoup库学习总结:
简介:
BeautifulSoup是用来解析html/xml的工具,我们在爬虫保存下我们需要的html文档后需要用它来进行文档的解析与信息提取工作。
安装:
在管理员权限下打开cmd,输入pip install BeautifulSoup4
导入:
from bs4 import BeautifulSoup
创建BeautifulSoup对象:
Soup = BeautifulSoup(“要解析的页面”,”解析器”)
Demo:soup = BeautifulSoup(r.text,”html.parser”
输出:
print(soup.prettify())
BeautifulSoup库解析器:
解析器 |
使用方法 |
条件 |
bs4的html解析器 |
BeautifulSoup(mk,’htmlparser’) |
安装bs4库 |
lxml的html解析器 |
BeautifulSoup(mk,’lxml’) |
安装lxml库 |
lxml的xml解析器 |
BeautifulSoup(mk,’xml’) |
安装lxml库 |
Html5lib的解析器 |
BeautifulSoup(mk,’html5lib’) |
安装html5lib库 |