安装Beautiful Soup
Beautiful Soup是一个Python的HTML解析框架,我们可以利用它方便的处理HTML和XML文档。Beautiful Soup有3和4两个版本,目前3已经停止开发。所以我们当然还是学习最新的Beautiful Soup 4.
首先第一件事情就是利用pip安装Beautiful Soup。我们使用下面的命令。
pip install beautifulsoup4
稍等片刻之后Beautiful Soup就安装好了。这样,我们就可以开始使用它了。如果需要详细文档的话可以参考Beautiful Soup中文文档,这是难得的不是机翻的文档。
解析文档
获取文档
Beautiful Soup只是一个HTML解析库,所以我们如果想解析网上的内容,第一件事情就是把它下载下来。对于不同的网站,可能会对请求进行过滤。糗事百科的网站就对没有UA的请求直接拒绝掉。所以如果我们要爬这样的网站,首先需要把请求伪装成浏览器的样子。具体网站具体分析,经过我测试,糗事百科只要设置了UA就可以爬到内容,对于其他网站,你需要测试一下才能确定什么设置能管用。
有了Request对象还不行,还需要实际发起请求才行。下面代码的最后一句就使用了Python3的u