Python-Scrapy 个人兴趣教程(二):没错,从代理IP开始

本文介绍了使用Scrapy抓取和验证代理IP的流程,包括使用scrapy、mongo和supervisor来实现抓取、存储和监控。通过Scrapy创建项目,设置spiders和pipelines,抓取代理IP并进行有效性验证。代理IP来源为百度和谷歌搜索的前6页,抓取策略使用宽泛的正则表达式。文章还提到了通过crontab定时执行以保持数据库中的IP新鲜度。
摘要由CSDN通过智能技术生成

想要在Scrapy领域无限制畅游,做好伪装是第一步,于是乎,抓取代理IP成了很多教程的开始部分。

我十分同意这个观点,既有实际用处,又能作为一个教学,当然,对于初次使用scrapy的我,很多东西也只是在摸索阶段,所以以下内容算不上教学,只能说是练手。


完成代理IP抓取,总共分三个步骤:

  • 抓取网络上的代理IP和端口
  • 验证已经抓取的内容
  • 网络上的免费代理IP基本都有时效性,所以需要重复抓取和重复验证

这里需要用到的解决方案是:scrapy+mongo+supervisor,scrapy负责抓取,mongo是数据存储的解决方案,supervisor负责监控一个daemon,重复验证已经获得的代理IP。


scrapy教程推荐看官方的版本:scrapy官方文档,即使是翻译过的也可以,要掌握看文档的技能。

scrapy的具体使用这里不一步一步说明了,列出几个我认为叫重要的点:

  • 生成一个新的scrapy项目:
    scrapy startproject GoProxy

  • scrapy.cfg是一个ini格式的配置文件,配置相关的参数可以都放在这里。
  • spiders目录下放spider的代码,
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值