scrapy
ShirleyPaul
这个作者很懒,什么都没留下…
展开
-
【Scrapy】学习记录1_一个基本的Scrapy项目
[Scrapy整体架构] =========================================== 引擎(Scrapy Engine),用来处理整个系统的数据流处理,触发事务。调度器(Scheduler),用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。下载器(Downloader),用于下载网页内容,并将网页内容返回给蜘蛛。蜘蛛(Spiders),蜘蛛是主要干活原创 2016-11-08 10:42:48 · 633 阅读 · 0 评论 -
【Scrapy】学习记录2_爬虫Spider
items.py:用来定义需要保存的变量,其中的变量用Field来定义,有点像python的字典 pipelines.py:用来将提取出来的Item进行处理,处理过程按自己需要进行定义spiders:定义自己的爬虫 =========================================== 1.测试示例爬虫 直接执行quotesbot示例工程spiders中爬虫toscrap原创 2016-11-08 15:59:07 · 1682 阅读 · 0 评论 -
【Scrapy】学习记录3_编写简单爬虫
编写简单爬虫 爬取自己的csdn博文链接# -*- coding:gb2312 -*- from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selector #原创 2016-11-09 17:25:28 · 302 阅读 · 0 评论 -
【Mongodb】记录1_开始MongDB
1.进入mongodb的bin目录执行命令 2.启动服务 mongod –dbpath [mongodb路径]\data –storageEngine =mmapv1 –journal 3.浏览器输入http://localhost:27017/ 出现页面提示 It looks like you are trying to access MongoDB over HTTP on the n原创 2016-11-14 15:06:28 · 406 阅读 · 0 评论