Scrapy之路第一篇

最新推荐文章于 2022-07-13 23:57:39 发布

胥渺渺

最新推荐文章于 2022-07-13 23:57:39 发布

阅读量860

点赞数

分类专栏： scrapy 文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30067751/article/details/78129075

版权

本文是Scrapy入门案例，详细介绍了如何新建Scrapy项目，定义爬取目标，编写爬虫代码以及保存数据的基本步骤。通过实例演示了从创建项目、设置items、编写spiders到数据保存的全过程。

摘要由CSDN通过智能技术生成

Scrapy之路第一篇（入门案例）

构建自己的数据王国

新建项目
明确目标
制作爬虫
保存数据

一、新建项目(scrapy startproject)

在爬取前，必须创建一个新的scrapy项目，进入自定义的项目目录中，运行下列命令：

scrapy startproject myspider

其中，myspider为项目名称，可以看到将会创建一个myspider文件夹,目录结构大致如下：

这些文件的主要作用列举如下：

scrapy.cfg：项目的配置文件
myspider/：项目的python模块，将会从这里引用代码
myspider/items.py：项目的目标文件
myspider/pipelines.py：项目的管道文件
myspider/settings.py：项目的设置文件
myspider/spiders/：存储爬虫代码目录

二、明确目标(myspider/items.py)

准备抓取网站http://www.itcast.cn/channel/teacher.shtml网站里的所有讲师的姓名、职称和个人信息。

Item用来定义结构化数据字段，用以保存爬取到的数据，有点像python中的dict，但是提供了一些额外的保护减少错误。
可以在myspider/items.py中创建一个Item类，并且通过在Item类中继续定义多个Field类(该类是继承了dict)来完善该Item类
接下来，创建一个ItcastItem类，和构建item模型(model)。

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Scrapy之路第一篇

Scrapy之路第一篇（入门案例）构建自己的数据王国新建项目明确目标制作爬虫保存数据一、新建项目(scrapy startproject)在爬取前，必须创建一个新的scrapy项目，进入自定义的项目目录中，运行下列命令：scrapy startproject myspider其中，myspider为项目名称，可以看到将会创建一个myspider文件夹,目录结构大致如下：这些文件
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。