# 下面基于管道的数据持久化操作
CMD 终端里面命令操作
1 创建工程 scrapy startproject proName
2 切换目录 cd proName
3 创建爬虫 scrapy genspider spiderName
4 执行爬虫 scrapy crawl spiderName
# 一般的settings.py 里面这样修改 ROBOTSTXT_OBEY = False USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36' # 管道打开 ITEM_PIPELINES = { 'xiaohua.pipelines.XiaohuaPipeline': 300, 'xiaohua.pipelines.MysqlPipeline': 200, } # 可定义多个管道类 300优先级 数值越小优先级越高
# 日志输出类型定义 LOG_LEVEL = "ERROR"
# items.py # -*- coding: utf-8 -*- import scrapy class XiaohuaItem(scrapy.Item): name = scrapy.Field() #为啥? 不能保证解析到的数据类型统一, 可以存储任何type的数据 img_url = scrapy.Field()