8 基于管道的持久化存储 scrapy

# 下面基于管道的数据持久化操作

CMD 终端里面命令操作
1 创建工程 scrapy startproject proName
2 切换目录 cd proName
3 创建爬虫 scrapy genspider spiderName
4 执行爬虫 scrapy crawl spiderName
# 一般的settings.py 里面这样修改
ROBOTSTXT_OBEY = False
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36'

# 管道打开
ITEM_PIPELINES = {
   'xiaohua.pipelines.XiaohuaPipeline': 300,
   'xiaohua.pipelines.MysqlPipeline': 200,
}    # 可定义多个管道类  300优先级  数值越小优先级越高

#
日志输出类型定义 LOG_LEVEL = "ERROR"
# items.py
# -*- coding: utf-8 -*-

import scrapy

class XiaohuaItem(scrapy.Item):

    name = scrapy.Field()  #为啥? 不能保证解析到的数据类型统一, 可以存储任何type的数据
    img_url = scrapy.Field()

 

转载于:https://www.cnblogs.com/zhangchen-sx/p/10828259.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值