Scrapy爬虫小例子

学习Python也有一段时间了,虽然说断断续续,不过仍然还坚持着。还记得当初学习Python的初衷就是爬取网站信息,现在接触到了一个爬虫框架Scrapy,尽管简单,但还是记录一下。因为当我自己按照网络上的教程一步一步操作的时候,仍然碰到了些许问题。

以下是学习第一个Scrapy的步骤:

前提,你要安装好python和Scrapy。其实,scrapy的安装还是蛮复杂的,这个以后会讲。

第一步,首先使用命令scrapy startproject downdoubanpics生成scrapy项目。

生成后的scrapy项目结构如下:

├── downdoubanpics

   ├── downdoubanpics

   │   ├── __init__.py

   │   ├── items.py

   │   ├── pipelines.py

   │   ├── settings.py

   │   └── spiders

   │      └── __init__.py

   │      └──DoubanSpider.py

   └── scrapy.cfg


一、settings.py

为什么先讲这个文件。因为这个文件可以说是整个项目的控制中心,它管控着你具体调用哪个spider以及爬取数据的存储处理。

其中ITEM_PIPELINES决定着你是否启用pipelines来保存你所爬取的数据。如果你不设置,那就无法保存你的爬取内容。

当然也可以通过scrapy srawl douban > data.json来指定保存文件。

二、DoubanSpider.py

这是具体的爬虫文件,决定你怎么爬取你想爬的东西。

其中红色画线部分为关键代码和函数。相关,请查阅相关scrapy文档。这里不多做解释。

三、items.py

这个文件决定你需要爬哪些东西。

四、pipelines.py

这个文件决定你爬取的东西如何保存,保存在哪里。


其他的以后再讲,第一次先讲这些。谢谢。

代码见oschina git: http://git.oschina.net/robert01/savedoubanfilminfos

https://git.oschina.net/robert01/savedoubanfilminfos.git

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值