Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
这篇文档介绍了BeautifulSoup4中所有主要特性,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果,和处理异常情况.
因为Beautiful Soup 是第三方库,所以需要提前安装。为大家介绍以下几种安装方法。
安装方法一:
①进入python文件夹执行指令(前提是支持pip指令):
pip3 install Beautifulsoup4
②回车待安装完成,如果出现以下红框中内容,即代表安装成功
③验证是否可以运行成功,运行cmd执行,引用模块import bs4回车未报错,则证明安装完成,可以正常使用了:
安装方法二(像我们公司这种各种网络限制,使用pip就会出现无法安装,一直循环在retry):
①进入官网下载压缩包:Beautiful Soup官网下载链接
②将压缩包解压至python文件中,进入解压文件后输入指令(前面的python不可缺少):
python setup.py install
③待运行完成后输入python,再输入help('modules')可以查看你当前python拥有的所有模块,如下:
④如上安装完成,同样检查是否可以正常引入bs4,输入:import bs4 回车
安装方法三(如果是python3伙伴会发现,上面两种方法还是不行,运行help('modules')也找不到bs4模块,此时就需要使用以下方法了):
①同样进行上面第二种方法后,将BeautifulSoup4文件夹中的bs4文件夹拷贝到python安装目录下的lib中
②将python安装目录下的Tools/scripts/2to3.py文件也剪切到python安装目录下的lib中
③cmd中cd到lib目录,然后运行python 2to3.py bs4 -w即可
安装解析器
Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml:
pip install lxml
另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:
pip install html5lib
下表列出了主要的解析器,以及它们的优缺点: