1.说明
是一个高效的网页解析库,可以从HTML或XML文件中提取数据
支持不同的解析器,比如,对HTML解析,对XML解析,对HTML5解析
就是一个非常强大的工具,爬虫利器
一个灵感又方便的网页解析库,处理高效,支持多种解析器
利用它就不用编写正则表达式也能方便的实现网页信息的抓取
2.安装
1.直接在pycharm中的Python packages中输入beautifulsoup4下载
2.找到Python的文件目录,打开cmd,输入python -m pip install beautifulsoup4
同时也要安装lxml库, lxml 是一种使用 Python 编写的解析库,可以迅速、灵活地处理 XML 和 HTML
3.解析库
解析库 | 使用方法 | 优势 | 劣势 |
Python标准库 | BeatifulSoup(markup,'html.parser') | python的内置标准库,执行速度适中,文档容错率强 | Python2.7.3or3.2.2前的版本中文容错率差 |
lxml HTML解析器 lxml XML解析器 | BeautifulSoup(markup,'lxml') BeautifulSoup(markup,'xml') | 速度快,容错率高 速度快,唯一支持XML的解析器 | 都需要安装C语言库 |
html5lib | BeautifulSoup(markup,'html5lib') | 容错性强,以浏览器方式解析文档,生成HTML5格式的文档 | 速度慢,不依赖外部扩展 |
详情讲解请看:http://t.csdn.cn/VzoKN