Scrapy爬虫小例子

最新推荐文章于 2021-09-29 11:32:49 发布

mengzuixilou

最新推荐文章于 2021-09-29 11:32:49 发布

阅读量933

点赞数

分类专栏： python 文章标签： scrapy 爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mengzuixilou/article/details/48052369

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

学习Python也有一段时间了，虽然说断断续续，不过仍然还坚持着。还记得当初学习Python的初衷就是爬取网站信息，现在接触到了一个爬虫框架Scrapy，尽管简单，但还是记录一下。因为当我自己按照网络上的教程一步一步操作的时候，仍然碰到了些许问题。

以下是学习第一个Scrapy的步骤：

前提，你要安装好python和Scrapy。其实，scrapy的安装还是蛮复杂的，这个以后会讲。

第一步，首先使用命令scrapy startproject downdoubanpics生成scrapy项目。

生成后的scrapy项目结构如下：

├── downdoubanpics

│ ├── downdoubanpics

│ │ ├── __init__.py

│ │ ├── items.py

│ │ ├── pipelines.py

│ │ ├── settings.py

│ │ └── spiders

│ │ └── __init__.py

│ │ └──DoubanSpider.py

│ └── scrapy.cfg

一、settings.py

为什么先讲这个文件。因为这个文件可以说是整个项目的控制中心，它管控着你具体调用哪个spider以及爬取数据的存储处理。

其中ITEM_PIPELINES决定着你是否启用pipelines来保存你所爬取的数据。如果你不设置，那就无法保存你的爬取内容。

当然也可以通过scrapy srawl douban > data.json来指定保存文件。

二、DoubanSpider.py

这是具体的爬虫文件，决定你怎么爬取你想爬的东西。

其中红色画线部分为关键代码和函数。相关，请查阅相关scrapy文档。这里不多做解释。

三、items.py

这个文件决定你需要爬哪些东西。

四、pipelines.py

这个文件决定你爬取的东西如何保存，保存在哪里。

其他的以后再讲，第一次先讲这些。谢谢。

代码见oschina git: http://git.oschina.net/robert01/savedoubanfilminfos

https://git.oschina.net/robert01/savedoubanfilminfos.git

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。