爬虫遇到的技术封锁问题

技术问题

  1. IP封锁问题:采用IP代理池进行爬取,在IP池中随机选取IP进行代理
  2. 爬的太快:导致网站相应问题,最后直接被封锁。采取的方式直接放慢爬取速度,降低速度为代价换取稳定。
  3. 验证码问题:验证图像分割和识别,别人的代理。
  4. 网站账号登录保持问题:尽量减少网站账号的重复登陆,使用COKKIES信息和sesion进行会话保持,避免被封号。
  5. 爬虫程序停止回复问题:采用文本记录的方式来保存对已爬取过的景点/URL进行保存,重复查询的数据结构采用dict(字典),采用异常处理,断线重启(双重脚本启动,采用返回值来判断是否异常结束)等方法尽量保证程序的稳定性。
  6. AJAX加载问题:采用selenium模拟滚动,这样的话爬取速度会比较慢
  7. 元素定位问题:有些页面元素非一般化,需要单独处理(人工前期分析,此种页面占比少,直接丢弃)。
发布了118 篇原创文章 · 获赞 1 · 访问量 9163
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 游动-白 设计师: 上身试试

分享到微信朋友圈

×

扫一扫,手机浏览