BeautifulSoup库学习

最新推荐文章于 2022-08-21 17:30:31 发布

galaxyxupt

最新推荐文章于 2022-08-21 17:30:31 发布

阅读量210

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/galaxyxupt/article/details/81437693

版权

3 篇文章 0 订阅

订阅专栏

简单地说，，BeautifulSoup就是Python的一个HTML或XML的解析库，可以用它方便的从网页中提取目标数据

python setup.py build
python setup.py install
要注意使用的时候不能直接import,而是要
from bs4 import BeautifulSoup

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	速度适中文档容错强	2.7前版本文档容错差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快，文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, [“lxml”, “xml”])BeautifulSoup(markup, “xml”)	速度快，唯一支持xml解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性	速度慢，不依赖外部扩展

soup = BeautifulSoup(html)

html 可以为本地html文件，也可是通过requests.get()等方法获得的HTML文件

soup = BeautifulSoup(open(xxx.html))

BeautifulSoup初始化时会将不标准的HTML字符串更正格式

关注

专栏目录