关于爬虫和反爬虫的一些东西

最新推荐文章于 2024-08-21 14:24:10 发布

LH_python

最新推荐文章于 2024-08-21 14:24:10 发布

阅读量535

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LH_python/article/details/79448849

版权

2018.3.5

爬虫和反爬虫的斗争

==================================================

爬虫程序

1）编写爬虫代码，发起请求，接收响应，获得数据

2）在发起请求时，添加User-agent字段，设置请求间隔。

3）发送请求的时候，使用代理ip，设置请求间隔

4）注册网站账户，模拟cookie/token登录，发起请求

5）使用云代码平台进行验证

6）1.抓取js请求，模拟发送 2.selenium完全模拟用户操作行为，操作网页

服务器反爬虫

1）监控到某一时段，访问量突然增大，对User-Agent字段进行判断

2）发起请求的ip地址相同，访问速率过高，限制ip和ip访问频率

3）健全账号系统，只有相互关注的账户才能相互访问

4）发现请求过于频繁，弹出验证码

5）增加动态页面，比较重要的数据使用js发起请求动态加载

6)现无办法继续禁止爬虫

====================================================

爬虫的目的：

1）获取数据，填充公司的数据库，可以用来做测试按数据，也可以直接使用

2）通过爬虫爬取大量数据，用来做搜索引擎

3 )通过爬虫爬取数据，做数据采集和数据分析的工作作

4）通过爬虫爬取数据，用用户作训练模拟，做人工智能机器人训练

反爬虫的目的：

1）针对初级爬虫，简单粗暴，不会考虑服务器压力，导致服务器瘫痪。

2）针对失控的爬虫，爬虫的数据量比较多，忘记关闭爬虫程序，同样导致服务器压力过大

3）防止同行爬取公司重要的数据，防止同行恶意竞争

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。