scrapy项目＞代理＞验证码问题

最新推荐文章于 2023-03-27 13:56:02 发布

阿泽Az

最新推荐文章于 2023-03-27 13:56:02 发布

阅读量990

点赞数

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/az123qq_/article/details/124875518

版权

一，项目问题：

1、你写爬虫的时候都遇到过什么反爬虫措施，你最终是怎样解决的
   1，通过headers反爬虫：
               解决策略，伪造headers
   2，基于用户行为反爬虫：
               动态变化去爬取数据，模拟普通用户的行为，使用IP代理池爬取或者降低抓取频率，或通过动态更改代理ip来反爬虫
   3，基于动态页面的反爬虫：
               跟踪服务器发送的ajax请求，模拟ajax请求,selnium和phtamjs
               或使用selenium + phantomjs 进行抓取抓取动态数据，或者找到动态数据加载的json页面。

4，验证码：
使用打码平台识别验证码

   5，数据加密：
               对部分数据进行加密的，可以使用selenium进行截图，
               使用python自带的pytesseract库进行识别，但是比较慢最直接的方法是找到加密的方法进行逆向推理，

2.你写爬虫的时候使用的什么框架选择这个框架的原因是什么？
scrapy
   优势:
       可以实现高并发的爬取数据, 注意使用代理;
       提供了一个爬虫任务管理界面, 可以实现爬虫的停止,启动,调试,支持定时爬取任务;
       代码简洁

   劣势:
       1.可扩展性不强。
       2.整体上来说:

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy项目＞代理＞验证码问题

一，项目问题：1、你写爬虫的时候都遇到过什么反爬虫措施，你最终是怎样解决的 1，通过headers反爬虫：解决策略，伪造headers 2，基于用户行为反爬虫：动态变化去爬取数据，模拟普通用户的行为，使用IP代理池爬取或者降低抓取频率，或通过动态更改代理ip来反爬虫 3，基于动态页面的反爬虫：跟踪服务器发送的ajax请求，模拟ajax请求,selnium和phtamjs...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。