使用 Beautiful Soup 解析网页内容

最新推荐文章于 2024-08-19 09:22:32 发布

乐百川

最新推荐文章于 2024-08-19 09:22:32 发布

阅读量1.4w

点赞数 3

分类专栏： python 网络爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011054333/article/details/69049210

版权

本文介绍了如何使用Python的Beautiful Soup库解析HTML文档。从安装到实际应用，包括伪装请求、获取网页内容、解析文档、查询和遍历方法，以及通过实例展示了爬取糗事百科段子的过程。虽然没有涉及百度贴吧楼层的爬取，但文章提供了足够的基础信息来帮助读者理解Beautiful Soup在网页解析中的应用。

摘要由CSDN通过智能技术生成

安装Beautiful Soup

Beautiful Soup是一个Python的HTML解析框架，我们可以利用它方便的处理HTML和XML文档。Beautiful Soup有3和4两个版本，目前3已经停止开发。所以我们当然还是学习最新的Beautiful Soup 4.

首先第一件事情就是利用pip安装Beautiful Soup。我们使用下面的命令。

pip install beautifulsoup4

稍等片刻之后Beautiful Soup就安装好了。这样，我们就可以开始使用它了。如果需要详细文档的话可以参考Beautiful Soup中文文档，这是难得的不是机翻的文档。

解析文档

获取文档

Beautiful Soup只是一个HTML解析库，所以我们如果想解析网上的内容，第一件事情就是把它下载下来。对于不同的网站，可能会对请求进行过滤。糗事百科的网站就对没有UA的请求直接拒绝掉。所以如果我们要爬这样的网站，首先需要把请求伪装成浏览器的样子。具体网站具体分析，经过我测试，糗事百科只要设置了UA就可以爬到内容，对于其他网站，你需要测试一下才能确定什么设置能管用。

有了Request对象还不行，还需要实际发起请求才行。下面代码的最后一句就使用了Python3的u

最低0.47元/天解锁文章

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

乐百川 CSDN认证博客专家 CSDN认证企业博客

码龄11年

309: 原创

2万+: 周排名

64万+: 总排名

424万+: 访问

: 等级

2万+: 积分

1549: 粉丝

1589: 获赞

468: 评论

4730: 收藏

私信

关注

热门文章

分类专栏

最新评论

Matlab R2018b激活教程
XiaoShi小石: undefined
Wolfram Mathematica 12.3免费安装教程
孤鹤～: 还真是要手动输入密钥。。。
Wolfram Mathematica 12.3免费安装教程
maaaaath: 搞定，感恩！！！
三门问题的Python代码模拟
hijack_er: from random import randint def tick(): doors = [0, 0, 0] doors[randint(0, 2)] = 1 selection = randint(0, 2) results = [1 if doors[selection] else 0] exception = None for item in doors: if not item: exception = doors.index(item) break reselection = randint(0, 2) while reselection == selection or reselection == exception: reselection = randint(0, 2) results.append(1 if doors[reselection] else 0) return results if __name__ == '__main__': times = 100000 counter = [0, 0] for _ in range(times): a, b = tick() counter[0] += a counter[1] += b print(counter) print(f"不换门： {counter[0] / times:.3f}") print(f"换\u3000门： {counter[1] / times:.3f}") 为什么我这个输出的结论是错误的
Wolfram Mathematica 12.3免费安装教程
雪山上的来客345: 这网站不能用了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。