对于Beautifulsoup4,官方的解释如下:
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
如果我们想进行爬虫开发的话,那么这个库肯定是必不可少的。
- 1
- 2
- 3
- 4
下面是用终端进行安装:
注意这里需要区分以下你的python版本,,如果你使用的是Mac自带的python,那么你需要这样写:
pip install beautifulsoup4
- 1
如果你安装了新版的python,我的电脑装的python版本是3.6.3,所以我需要这样写
pip3 install beautifulsoup4
- 1
等待安装完成…
完成之后,在工程中可以使用
from bs4 import BeautifulSoup
- 1
进行导入模块,如果运行不报错,那么你就成功了。如果报错的话,类似这个 ‘‘ import name HTMLParseError’’,这个代表着你的python版本和beautifulsoup4的支持版本不符,所以你需要更新一下你的beautifulsoup4
还是老样子,根据版本号:
pip3 install --upgrade beautifulsoup4
- 1
更新完成之后,运行没问题的话,恭喜你就可以使用bs4了,如果还是报错(我的今天就遇到了这样的问题),你就需要进入文件夹瞅一瞅了,打开finder,前往文件夹:
/usr/local/lib/python3.6/site-packages
- 1
在这个文件夹里找一找,看有没有两个beautifuls4的文件,如果有,删掉那个旧版本的,我的是不知道什么原因,site-packages里多了个 ‘‘beautifulsoup4-4.1.0-py3.6.egg-info’’文件,删除掉就好了。
beautifulsoup4安装完成之后,还需要一个叫 lxml 的依赖库:
pip3 install lxml
- 1
安装完成之后就大功告成了。