python-爬虫
文章平均质量分 66
星空永恒&&卡利达
这个作者很懒,什么都没留下…
展开
-
downloader middleware 研读(1)
对requests和response会产生影响,像代理IP什么的就跟这个有关了 The downloader middleware is a framework of hooks into Scrapy’s request/response processing. It’s a light, low-level system for globally altering Scrapy’s requ原创 2017-01-02 16:48:26 · 841 阅读 · 0 评论 -
抓取西刺代理IP+验证是否可用+存储mongodb
spider文件的代码:import scrapyimport requests #用于测试抓取过来的IP是否可用class XiciSpider(scrapy.Spider): name = "xici" allowed_domains = ["xicidaili.com",] def start_requests(self): urls = ["http://www.xic原创 2017-01-02 18:06:01 · 2087 阅读 · 0 评论 -
scrapy定时任务
1. sudo crontab -e2. 我选择的是vim3. 在末尾插入一行 */1 * * * * sh /home/maoxianxin/scrape/scrapeIP/cron.sh4. 在/home/maoxianxin/scrape/scrapeIP/下新建cron.sh文件 代码如下: #! /bin/sh export PATH=$PATH:/u原创 2017-01-02 18:26:36 · 2255 阅读 · 1 评论 -
爬取智联招聘信息
还未完善,继续测试中,只是写个总结原创 2016-12-29 19:05:21 · 1525 阅读 · 0 评论 -
scrapy at a glance 研读
scrapy 是一个application framework (框架)获取数据方式: web scraping APIs代码解析:import scrapyclass QuoteSpider(scrapy.Spider):#爬虫的名字必须唯一 在根目录下运行scrapy crawl quote或者在spiders目录下运行scrapy runspider 爬虫python原创 2016-12-31 18:05:46 · 509 阅读 · 0 评论 -
installation guide 研读
scrapy支持python2.7和python3.3以上版本,在windows下不支持python3版本(目前不支持)官方建议安装scrapy在虚拟环境中(virtualenv)Scrapy is written in pure Python and depends on a few key Python packages (among others): lxml, an eff原创 2016-12-31 20:09:55 · 426 阅读 · 0 评论