二、Scrapy案例入门

本文介绍了如何使用Scrapy框架创建一个爬虫项目,包括新建项目、定义目标、创建爬虫以及解析数据。讲解了Scrapy的目录结构、主要文件作用,如items.py、pipelines.py和settings.py。在items.py中定义了数据模型,然后在爬虫中通过parse方法解析数据,使用yield生成器避免内存占用过高。最后提到了数据的保存方式。
摘要由CSDN通过智能技术生成

1、新建项目

  (1)创建一个新的Scarpy项目,进入自定义的项目目录中,运行命令:`scrapy startproject mySpider`

    说明:(1)mySpider为项目名称

       (2)运行这条命令后,会生成一个mySpider的文件夹,里面存放创建的spider项目

  (2)mySpider的目录结构

    

  (3)各个主要文件的作用

    `scrapy.cfg`:项目的配置文件
    `mySpider/`:项目的python模块,将会从这里引用代码
    `mySpider/items.py`:项目的目标文件
    `mySpider/pipelines.py`:项目的管道文件
    `mySpider/settings.py`:项目的设置文件
    `mySpider/spiders/`:存储爬虫代码的目录

2、明确目标(mySpider/items.py)

  爬取网站里的所有讲师的姓名、职称和个人信息:http://www.itcast.cn/channel/teacher.shtml

  (1)打开mySpider目录下的items.py

  (2)item定义结构化数据字典,用来保存爬取到的数据,类似于python中的字典,但是提供了一些额外的保护减少错误

  (3)可以通过创建一个继承自scrapy.Item的类,并且定义类型为scrapy.Field的类属性来定义一个Item

  (4)创建一个It

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值