Scrapy
文章平均质量分 52
felcon
这个作者很懒,什么都没留下…
展开
-
scrapy爬虫起步(1)--第一个爬虫程序
使用scrapy抓取豆瓣小组的组名1. 新建scrapy工程新建工程文件夹,命令行cd到该目录下,用下面的命令新建一个scrapy工程 scrapy startproject dmoz 新建好的工程目录结构为:E:\PYTHON WORKSPACE\DOUBAN│ scrapy.cfg└─douban │ items.py │ pipelines.py │原创 2015-06-16 15:49:12 · 1872 阅读 · 0 评论 -
Scrapy
实现一个功能很简单的爬虫:目标类似论坛,抓取第一个目录页-》提取所有页面-》找出下一个目录页地址-》提取下一目录页的所有页面;问题描述运行的时候发现一个问题,抓取的数量不对。例如第一个目录页有15条,第二个目录页有20条,那么最终应该抓取到35条,但是实际发现最终抓取到的条目是随机的…… 试着分开抓,第一次只抓第一个目录页,返回了15条没错;第二次只抓第二个目录页,返回了20条没错;一起抓的时候,原创 2015-07-08 08:59:00 · 684 阅读 · 0 评论 -
Scrapy中文输出与中文保存
使用Scrapy抓取中文时,输出一般是unicode,要输出中文也只需要稍作改动。 两种情况:单纯交互输出如代码:title = sel.xpath('a/text()').extract()print title此时输出的是title对应中文的unicode格式,只需要指定“utf-8”编码即可输出中文,如下:title = sel.xpath('a/text()').extract()fo原创 2015-06-10 11:44:07 · 8764 阅读 · 0 评论 -
利用MongoDB存储scrapy的数据
之前scrapy都是存储在文件中,该考虑一下数据库了。 当前工作爬取的内容(不是前面说的豆瓣小组)实际上很多都是文档型的,类似于文章+评论的样式,其中文章又包括标题、作者、地址等。使用传统关系数据库当然也可以,使用ID和外键连接就可以了。但既然有了文档型的非关系数据库,就试试吧。 选择了MongoDB,网上查了下,主要特性如下:面向集合(Collenction-Oriented):意思是数据被原创 2015-06-25 09:27:26 · 1321 阅读 · 0 评论 -
Scrapy
1. 安装按照官方文档的安装指南,一步步走就行了。我安装在windows下 http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/install.html#windows2. 初探还是官方文档,继续 http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html但是在运行爬虫原创 2015-05-28 16:20:54 · 901 阅读 · 0 评论 -
scrapy爬虫起步(5)--又一个多页面抓取的方法
上上篇scrapy爬虫起步(3)– 利用规则实现多页面抓取给出了利用CrawlSpider的Rule实现多页面抓取的方法,实际上直接利用BaseSpider也能实现多页面抓取。 具体思路:还是以我们的豆瓣小组为例吧,豆瓣社科小组,我们将首页地址作为start_url参数,从页面源码找到其余分页,如下: <div class="paginator"> <span class="p原创 2015-06-18 14:55:44 · 6492 阅读 · 0 评论 -
scrapy爬虫起步(3)-- 利用规则实现多页面抓取
第一篇 scrapy爬虫起步(2)–从script调用scrapy实现了一个简单的爬虫程序,只抓取start_urls里的网页信息。用以实验的页面是社科相关的小组,这只是社科小组下面的第一页地址,如果需要抓取该分组下所有的小组,就需要继续访问其它页。利用scrapy的规则匹配来自动实现。先贴代码吧:# coding=utf-8__author__ = 'Jeffee Chen'from scrap原创 2015-06-17 17:01:38 · 5336 阅读 · 0 评论 -
scrapy爬虫起步(4)-- 来个scrapy的简介吧
完成了之前3步工作,现在再来个简介是不是有点顺序错乱的感觉。其实我觉得经历了之前的步骤之后再来看看更有助于理解。 内容是从别人那儿摘的,个人觉得讲的挺清楚。 来源:Scrapy简介Scrapy简介Scrapy是Python开发的一个快速,高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。下图展示了Scrapy的大致架构,其中包含了主要组件和系统的数据处理流程(绿色箭转载 2015-06-17 17:12:20 · 962 阅读 · 0 评论 -
scrapy爬虫起步(2)--从script调用scrapy
上一篇scrapy爬虫起步(1)–第一个爬虫程序介绍了利用scrapy进行数据抓取的一个简单例子,需要从命令行运行。有些时候我们需要的是直接从代码中调用,Scrapy提供了相应的接口,具体见这儿在脚本中运行Scrapy实践过程中发现版本不一样程序差距蛮大,我现在使用的版本是:Scrapy 0.24.6,因此参照的是0.24的文档,如果选择最新的文档在脚本中运行Scrapy会有问题,使用时需要注意一下原创 2015-06-17 10:42:48 · 3630 阅读 · 0 评论 -
Scrapy升级到1.0版本
发现scrapy已经升级到1.0.1了,之前一直使用的是0.24.1 使用下面命令升级:>python -m pip install --upgrade scrapy变化待续……原创 2015-07-08 11:24:04 · 3613 阅读 · 0 评论