Scrapy之路第一篇

本文是Scrapy入门案例,详细介绍了如何新建Scrapy项目,定义爬取目标,编写爬虫代码以及保存数据的基本步骤。通过实例演示了从创建项目、设置items、编写spiders到数据保存的全过程。
摘要由CSDN通过智能技术生成

Scrapy之路第一篇(入门案例)

构建自己的数据王国

  • 新建项目
  • 明确目标
  • 制作爬虫
  • 保存数据

一、新建项目(scrapy startproject)
  • 在爬取前,必须创建一个新的scrapy项目,进入自定义的项目目录中,运行下列命令:
scrapy startproject myspider
  • 其中,myspider为项目名称,可以看到将会创建一个myspider文件夹,目录结构大致如下:
    myspider目录结构

这些文件的主要作用列举如下:

  1. scrapy.cfg:项目的配置文件
  2. myspider/:项目的python模块,将会从这里引用代码
  3. myspider/items.py:项目的目标文件
  4. myspider/pipelines.py:项目的管道文件
  5. myspider/settings.py:项目的设置文件
  6. myspider/spiders/:存储爬虫代码目录
二、 明确目标(myspider/items.py)

准备抓取网站http://www.itcast.cn/channel/teacher.shtml网站里的所有讲师的姓名、职称和个人信息。

  1. Item用来定义结构化数据字段,用以保存爬取到的数据,有点像python中的dict,但是提供了一些额外的保护减少错误。
  2. 可以在myspider/items.py中创建一个Item类,并且通过在Item类中继续定义多个Field类(该类是继承了dict)来完善该Item类
  3. 接下来,创建一个ItcastItem类,和构建item模型(model)。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值