如何清理爬服务器信息,反爬常见的现象

最新推荐文章于 2022-12-28 17:14:50 发布

weixin_39815456

最新推荐文章于 2022-12-28 17:14:50 发布

阅读量290

点赞数

文章标签：如何清理爬服务器信息

如同大家知道的。不同网站有不用的反爬策略，对于网络爬虫的限制也不一样，常见的现象大致可以分为几类：

一、不返回网页，如不返回内容和延迟网页返回时间

不返回网页是比较传统的反爬虫手段，也就是在爬虫发送请求给相应网站地址后，网站返回404页面，表示服务器无法正常提供信息或服务器无法回应；网站也可能长时间不返回数据，这代表对爬虫已经进行了封杀。

二、返回数据非目标网页，如返回错误页、返回空白页和爬取多页时均返回同一页。

除了不返回网页外，还有爬虫返回非目标网页，也就是网站会返回假数据，如返回空白页或爬取多页的时候返回了同一页。当你的爬虫顺利地运行起来，你开开心心地去做其他事情了，结果半个小时之后发现爬取的每一页的结果都是一样的，这就是获取了假的网站。

另外还有返回403页面，是因为服务器拒绝了你的地址请求，可能是你没有使用成功。这时你可重新提取

三、增加获取数据的难度，如登录才可查看和登录时设置验证码

网站也会通过增加获取数据的难度反爬虫，一般登录才可以查看数据，而且会设置验证码。为了限制爬虫，无论你是否是真正的用户，网站都可能会要求你登录并输入验证码才能访问。例如，我们登入一个网站需要用户在输入图中数字验证码

如需了解更多有意向可＋为了解要舞刘骑旧要思玲玲刘旧

weixin_39815456

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。