BeautifulSoup简介
beautifulsoup就是一个非常强大的工具,爬虫利器。
beautifulSoup “美味的汤,绿色的浓汤”
一个灵活又方便的网页解析库,处理高效,支持多种解析器。
利用它就不用编写正则表达式也能方便的实现网页信息的抓取。
–BeautifulSoup是python的一个第三方库,在爬虫中,起着网页解析器的作用,可以对下载好的网页进行页面元素分析,提取出有价值的数据,相比较Lxml,BeautifulSoup的性能会差一些,毕竟是纯python,但是BeautifulSoup解析网页的支持度貌似会好一些。
安装
附上bs4官网(https://www.crummy.com/software/BeautifulSoup/)
windows
首先进入pip的安装目录,位于Scripts文件夹中
cmd 下执行:
pip3 install beautifulsoup4
—执行结果:—
Collecting beautifulsoup4
Downloading https://files.pythonhosted.org/packages/21/0a/47fdf541c97fd9b6a610cb5fd518175308a7cc60569962e776ac52420387/beautifulsoup4-4.6.3-py3-none-any.whl (90kB)
100% |████████████████████████████████| 92kB 66kB/s
Installing collected packages: beautifulsoup4
Successfully installed beautifulsoup4-4.6.3
You are using pip version 10.0.1, however version 18.1 is available.
You should consider upgrading via the ‘python -m pip install --upgrade pip’ command.
安装ok,
一般会在 C:\Python37\Lib\site-packages\下生成
beautifulsoup4-4.6.3.dist-info
和
bs4目录及文件。
Linux
$ sudo apt-get python-bs4(python2)
$ sudo apt-get python3-bs4(python3)
等待安装完成