这个网站不知道使用了什么反爬手段,都获取不到页面数据?

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

何当共剪西窗烛,却话巴山夜雨时。

大家好,我是Python进阶者。

一、前言

前几天在Python钻石交流群【空】问了一个Python网络爬虫的问题,这个网站不知道使用了什么反爬手段,都获取不到页面数据。

7d44a458279a8623cf8d053d3f99673c.png

不过他一开始也没有放代码,后来【瑜亮老师】轻松拿捏了。

89d2fc9ef71b1acf9795aadd628f4b4b.png

二、实现过程

这里粉丝提到,获取页面源码,出现了一些问题,或者说,没有获取到正确的页面源码。

我们怀疑他可能忘记记ua请求头这些,那一堆都带上,应该问题不大,如referer,cookies之类的。

后来【瑜亮老师】指出这是异步加载的数据,数据内容不在html中。简单来说,页面源码,跟浏览器看到的源码不一样。

这个问题挺常见的,这里我还专门问了kimi。回答如下:

网络爬虫通常直接与网站的服务器进行交互,获取的是服务器返回的原始HTML代码,而浏览器看到的源码则是经过浏览器渲染后的结果。

  1. 动态内容加载:现代网站大量使用JavaScript动态加载内容,网络爬虫直接获取的HTML可能不包含这些动态加载的数据,而浏览器会执行JavaScript,从而渲染出完整的页面内容。

  2. 浏览器渲染:浏览器在显示网页时会对HTML进行解析和渲染,包括CSS样式的应用、图片和视频的加载等,而网络爬虫通常不执行JavaScript和CSS,因此获取的内容可能与浏览器显示的不一样。

  3. 反爬虫机制:一些网站为了保护内容和服务器资源,会使用反爬虫技术,比如检测请求头部信息、使用Cookies验证等,这些机制可能导致网络爬虫获取的页面源码与浏览器看到的不一样。

  4. 服务器端渲染:有些网站采用服务器端渲染(SSR),即服务器根据请求动态生成HTML页面,这种方式下,网络爬虫获取的可能是服务器端渲染后的页面,而浏览器看到的是客户端渲染后的结果。

  5. 缓存和CDN:网站可能会使用缓存和内容分发网络(CDN)来提高访问速度和用户体验,这可能导致网络爬虫和浏览器获取的内容存在差异。

  6. 用户交互:浏览器中用户的操作(如点击、滚动等)可能会触发页面内容的变化,而网络爬虫无法模拟这些交互,因此获取的内容可能不完整或不准确。

为了解决这些问题,爬虫开发者可能需要使用更高级的爬虫框架和技术,比如模拟浏览器行为、处理JavaScript渲染等,以便更准确地抓取和解析网页内容。同时,也应遵守网站的爬虫政策和法律法规,合理合法地进行网络爬虫活动。

ad0d6860c2de2c1f7cb55170c90b5c5b.png

简单来说不一样的,页面是已经渲染过的,比如js会渲染后再呈现,但是服务器的源码是不会渲染的,粉丝的需求是获取渲染后的数据,准确的说是获取渲染后的源码。

df9b4e40de6909689e8c2e7be6a34d74.png

顺利地解决了粉丝的问题。

如果你也有类似这种Python相关的小问题,欢迎随时来交流群学习交流哦,有问必答!

三、总结

大家好,我是Python进阶者。这篇文章主要盘点了一个Python网络爬虫网页JS渲染的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【空】提出的问题,感谢【论草莓如何成为冻干莓】、【瑜亮老师】给出的思路,感谢【进击的python】等人参与学习交流。

【提问补充】温馨提示,大家在群里提问的时候。可以注意下面几点:如果涉及到大文件数据,可以数据脱敏后,发点demo数据来(小文件的意思),然后贴点代码(可以复制的那种),记得发报错截图(截全)。代码不多的话,直接发代码文字即可,代码超过50行这样的话,发个.py文件就行。

ea8a34d8f6c1eaf3c81b9d3311f49e84.png

大家在学习过程中如果有遇到问题,欢迎随时联系我解决(Python进阶者微信:2584914241),应粉丝要求,我创建了一些ChatGPT机器人交流群和高质量的Python付费学习交流群和付费接单群,欢迎大家加入我的Python学习交流群和接单群!

3b69fa4115fd48a5281e2c27ff6aaa3c.png

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

57b22482a83cde12ade9a10e8b52b573.jpeg

------------------- End -------------------

往期精彩文章推荐:

bc5b90f13dc8a9821e9168d028a21349.png

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

  • 23
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值