爬虫爬取过程中会遇到的阻碍

最新推荐文章于 2021-01-25 08:51:06 发布

铁核

最新推荐文章于 2021-01-25 08:51:06 发布

阅读量985

点赞数 2

分类专栏：爬虫文章标签：爬虫 c# 数据挖掘经验分享

本文链接：https://blog.csdn.net/qq_25729733/article/details/104014641

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

                    
                        
                    
                    遇到协定：比如电商数据，不想被百度收录，所以做了声明，你别爬，如果爬取，我就告你，并且在其网站有着相关的协定页面，比如“https://www.taobao.com/robots.txt”。（办法：别去冒犯有协定的页面。）
header读取：通过读取你的header信息，看看你是不是真浏览器，看你的各种参数是否符合正常用户，如果不符合，就禁止你访问数据。（办法：我们可以在请求时模仿header。）
用户登录后才能访问：有些数据是只有登录后才能访问的，一般网站把登录数据都记录在session中。（办法：先用一个用户登录一下，然后请求的时候带上cookie，在客户端其实session信息也是写在cookie里面的。）
限制ip：爬数据时，因为访问网站的评率过高，所以网站把你的ip放入了黑名单，导致你当前ip的客户端无法访问它的数据。（办法：用多个ip( adsl拨号 / 代理IP ) 。）
验证码：爬数据时，因为访问网站的评率过高，或者其它原因，网站会返回验证码，如果填写不正确，就无法继续访问数据。（办法：有开源组件做图片识别 / 打码平台）
数据js动态加载：有些网页数据不是一次性全部加载，而是滚动条往下拉一下，加载一下，在这种情况下你无法直接爬取到全面的数据。比如vue的懒加载。（办法：根据js方法的特点来抓取数据。）
文字转图片：有些网站为了不让你爬取数据，会把网页文字内容转成图片。（办法：用第三方的文字识别技术。）
js收集用户操作辨识你是否真人：记录你鼠标移动的数据，然后传上去。如果你没有鼠标的移动，那么就不认可你是正常访问。（办法：跟踪它的js记录数据的方法，然后伪造相关参数。）
用户控件（安装在浏览器上的插件）：可以搜集客户端的更多信息，比如本地的硬件信息啥的，所以你换ip也没用了。（办法：暂时没有。）

                

铁核

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬虫爬取过程中会遇到的阻碍

侵权：比如电商数据，不想被百度收录，所以做了声明，你别爬去，如果爬取，我就告你，并且在其网站有着相关的协定页面，比如“https://www.taobao.com/robots.txt”。（办法：别去冒犯有协定的页面。）header读取：通过读取你的header信息，看看你是不是真浏览器，看你的各种参数是否符合正常用户，如果不符合，就禁止你访问数据。（办法：我们可以在请求时模仿header。）...
复制链接

扫一扫