Scrapy入门使用

Scrapy入门使用

1. 安装Scrapy

pip install scrapy

2. 创建项目及爬虫

创建项目:scrapy startproject 项目名称
切换目录:cd 项目名称
创建爬虫:scrapy genspider <爬虫名字> <允许爬取的域名>
项目目录

3. 完善爬虫

(1)在/myspider/myspider/spiders/itcast.py中修改内容如下:

  • 修改起始url start_urls
  • 检查允许的域名 allowed_domains
  • 在parse()方法中实现爬取逻辑,parse()中使用yield返回数据,能够传递的对象只能是BaseItem、Request、dict、None

(2)解析数据:

  • response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样。
  • extract()返回一个包含有字符串的列表
  • extract_first() 返回列表中的第一个字符串,列表为空没有返回None

4. 使用管道(pipelines.py

  • 定义一个管道类
  • 重写管道类的process_item()方法,方法名固定,爬虫文件中提取数据的方法每yield一次item,就会运行一次
  • process_item方法处理完item之后必须返回给引擎

5. 在settings.py中配置启用管道

ITEM_PIPELINES = {
	'项目目录名.文件.管道类': 300
}

配置项中值为管道的使用顺序,设置的数值越小优先级越高,一般不超过1000

6. 运行Scrapy

scrapy crawl <爬虫名>

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值