8 基于管道的持久化存储 scrapy

最新推荐文章于 2024-09-17 13:39:00 发布

weixin_33919941

最新推荐文章于 2024-09-17 13:39:00 发布

阅读量162

点赞数 1

文章标签： python 爬虫操作系统

原文链接：http://www.cnblogs.com/zhangchen-sx/p/10828259.html

版权

# 下面基于管道的数据持久化操作

CMD 终端里面命令操作
1 创建工程 scrapy startproject proName
2 切换目录 cd proName
3 创建爬虫 scrapy genspider spiderName
4 执行爬虫 scrapy crawl spiderName

# 一般的settings.py 里面这样修改
ROBOTSTXT_OBEY = False
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36'

# 管道打开
ITEM_PIPELINES = {
   'xiaohua.pipelines.XiaohuaPipeline': 300,
   'xiaohua.pipelines.MysqlPipeline': 200,
}    # 可定义多个管道类  300优先级  数值越小优先级越高

# 日志输出类型定义
LOG_LEVEL = "ERROR"

# items.py
# -*- coding: utf-8 -*-

import scrapy

class XiaohuaItem(scrapy.Item):

    name = scrapy.Field()  #为啥? 不能保证解析到的数据类型统一, 可以存储任何type的数据
    img_url = scrapy.Field()

转载于:https://www.cnblogs.com/zhangchen-sx/p/10828259.html