Beautiful Soup是Python的一个专门用于网页解析的扩展库,对于不规则网页,或者说前后标签不全的网页,也能很好抓取,并生成解析树。
特点是:
即使是有bug,有问题的html代码,也可以解析。
BeautifulSoup的主页是:
http://www.crummy.com/software/BeautifulSoup/
BeautifulSoup的最新版本
BeautifulSoup 4:缩写为bs4
下载bs4:
http://www.crummy.com/software/BeautifulSoup/bs4/download/
bs4的在线文档
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
如何安装BeautifulSoup
3.0.6之前:无需安装,放到和Python文件同目录下即可使用
3.0.6之后:需要安装BeautifulSoup后才可使用
bs4 下载完毕后解压至python对应目录,运行:
python setup.py install
如果python 安装有多个版本 可以在 系统环境变量里面指定一个 路径作为 默认路径。如果没有需要绝对目录执行。
如何使用BeautifulSoup
在你的Python文件中直接import即可。
from bs4 import BeautifulSoup;
测试安装是否成功。键入 import BeautifulSoup 如果没有异常,即成功安装。