想要在Scrapy领域无限制畅游,做好伪装是第一步,于是乎,抓取代理IP成了很多教程的开始部分。
我十分同意这个观点,既有实际用处,又能作为一个教学,当然,对于初次使用scrapy的我,很多东西也只是在摸索阶段,所以以下内容算不上教学,只能说是练手。
完成代理IP抓取,总共分三个步骤:
- 抓取网络上的代理IP和端口
- 验证已经抓取的内容
- 网络上的免费代理IP基本都有时效性,所以需要重复抓取和重复验证
这里需要用到的解决方案是:scrapy+mongo+supervisor,scrapy负责抓取,mongo是数据存储的解决方案,supervisor负责监控一个daemon,重复验证已经获得的代理IP。
scrapy教程推荐看官方的版本:scrapy官方文档,即使是翻译过的也可以,要掌握看文档的技能。
scrapy的具体使用这里不一步一步说明了,列出几个我认为叫重要的点:
- 生成一个新的scrapy项目:
scrapy startproject GoProxy
- scrapy.cfg是一个ini格式的配置文件,配置相关的参数可以都放在这里。
- spiders目录下放spider的代码,