scrapy框架初识笔记

最新推荐文章于 2024-07-23 14:36:35 发布

TheOCD

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量192

点赞数

分类专栏： scrapy 文章标签： scrapy python 爬虫

本文链接：https://blog.csdn.net/TheOCD/article/details/102326075

版权

scrapy 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

首先我们下载并安装Scrapy
pip install scrapy #配置框架
接着我们就创建第一项目
scrapy startproject spider_project_name  #当前路径下创建一个爬虫项目

接着我们进入这个项目并创建一个具体的爬虫
cd spider_project_name #进入对应爬虫项目的文件夹
scrapy genspider spider_name yuming #在该爬虫项目里建立一个爬虫，此时已经定义了爬虫的名字和其爬取的网址初步范围了，不过这些都可以改

打开pycharm，打开我们对应的爬虫项目

我们可以看到项目里面已经生成了一些模板文件，其中很多我们都不需要进行调整。具体的样式如下所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OFl1G7Bj-1570450964629)(https://i.imgur.com/vP6DrIc.png)]

我们主要去修改的有：

具体的爬虫，在spiders文件夹下面的除了__init__.py文件以外的爬虫；在爬虫里面我们将写我们怎么去爬取我们想要的数据和URL；
pipelines.py，这个文件是负责对爬虫返回的数据对象进行处理的，比如你可以在这里对数据进行清洗，加工，保存
settings.py负责配置，比如里面的
'ITEM_PIPELINES = { 'myfirstspider.pipelines.MyfirstspiderPipeline': 300, }'
取消这项注释就说明启用了我们piplines.py对数据的处理，当然我们可以启动多个，300就是启动的顺序（越小启动的越早），记住前面的process_item方法必须有返回项也就是return 否则后面的process_item都会没有对应的输入，pipline里面是一个串行的过程。

最后再说一点就是爬虫类下面的parse方法的名字和process_item的名字是不能修改的，否则他会报出这两个方法没有完成的错误，因为Scrapy框架约定俗成的回去找这两方法去执行

py框架约定俗成的回去找这两方法去执行 ####

这是我第一次用markdown做笔记，也是刚接触爬虫和Scrapy有什么说错的欢迎指正！！！！

TheOCD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架初识笔记

首先我们下载并安装Scrapypip install scrapy #配置框架接着我们就创建第一项目scrapy startproject spider_project_name #当前路径下创建一个爬虫项目接着我们进入这个项目并创建一个具体的爬虫cd spider_project_name #进入对应爬虫项目的文件夹scrapy genspider spider_name yum...
复制链接

扫一扫

专栏目录