requests+selenium 爬虫项目和 scrapy 爬虫项目的区别

本文对比了requests+selenium和scrapy两个爬虫项目,涉及项目周期、开发环境和技术使用。两者在url去重、数据去重、反扒策略、爬虫效率及分布式爬虫实现上存在相似之处,但scrapy提供了断点续爬和持久化功能,而requests+selenium在数据去重和分布式爬虫方面进行了特定优化。
摘要由CSDN通过智能技术生成

爬虫项目

request+selenium爬虫
  • 项目周期
  • 项目介绍
    • 爬了XXXXX,XXX,XXX,等网站,获取网站上的XXX,XXX,XXX,数据,每个月定时抓取XXX数据,使用该数据实现了XXX,XXX,XX,
  • 开发环境
    • linux+pycharm+requests+mongodb+redis+crontab+scrapy_redis+ scarpy + mysql+gevent+celery+threading
  • 使用技术
    • 使用requests…把数据存储在mongodb中
    • 使用crontab实现程序的定时启动抓取
    • url地址的去重
      • 使用redis的集合,把request对象的XXX字段通过sha1生成指纹,放入redis的集合中进行去重,实现基于url地址的增量式爬虫
      • 布隆过滤
    • 对数据的去重
      • 把数据的XXX字段通过sha1生成指纹,放入redis的集合中进行去重,实现增量式爬虫
    • 反扒
      • 代理ip
        • 购买了第三的代理ip,组成代理ip池,其中的ip没两天更新一次,同时使用单独的程序来检查代理ip的可用
      • cookie
        • 准备了XX个账号,使用requests获取账号的对应的cookieÿ
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值