使用requests.get()得到的源代码与浏览器中的不一样

最新推荐文章于 2024-03-01 10:54:10 发布

DGXstars

最新推荐文章于 2024-03-01 10:54:10 发布

阅读量1w

点赞数 11

文章标签： javascript

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40822925/article/details/106973803

版权

最近在入门爬虫，遇到了一个问题，就是我用requests.get()之后得到的源代码跟浏览器里面的不一样（爬的是百度搜索“美女”之后的网页），今天看了崔庆才的《python3网络爬虫开发实战》在2.3.3节找到了答案：我们用urllib或requests获取到的是HTML源代码，但是这个网页是用js渲染的，上面两个库不会像浏览器那样继续运行后面请求来的js模块，所以不一样。
还有一个问题，就是我用Beautiful Soup的find_all()方法找不到的标签，用正则表达式找到了，该问题应该是像我这种新手常犯的错误，我是按照F12界面中"元素"的DOM树来写的，这个跟网页源代码不一定一样，因为该界面所展示的东西可能经过JS渲染过，如果要看源代码，就找到F12界面的“源代码”标签，或者“Ctrl+U”查看，再或者在浏览器地址栏https前面输入“view-source”也可以查看。

关注

11
点赞
踩
22

收藏

觉得还不错? 一键收藏
9
评论
使用requests.get()得到的源代码与浏览器中的不一样

最近在入门爬虫，遇到了一个问题，就是我用requests.get()之后得到的源代码跟浏览器里面的不一样（爬的是百度搜索“美女”之后的网页），今天看了崔庆才的《python3网络爬虫开发实战》在2.3.3节找到了答案：我们用urllib或requests获取到的是HTML源代码，但是这个网页是用js渲染的，上面两个库不会像浏览器那样继续运行后面请求来的js模块，所以不一样。还有一个问题，就是我用Beautiful Soup的find_all()方法找不到的标签，用正则表达式找到了，可能也跟上面有关？还需要
复制链接

扫一扫

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。