编写PIPELINE:
我们知道,pipelines.py是用来处理收尾爬虫抓到的数据的,
一般情况下,我们会将数据存到本地:
文本形式: 最基本的存储方式
json格式 :方便调用
数据库: 数据量比较大时选择的存储方式
TXT(文本)格式:
import os
import requests
import json
import codecs
import pymysql
class WeatherPipeline(object):
def process_item(self, item, spider):
print(item)
# print(item)
# 获取当前工作目录
base_dir = os.getcwd()
# 文件存在data目录下的weather.txt文件内,data目录和txt文件需要自己事先建立好
filename = base_dir + '/data/weather.txt'
# 从内存以追加的方式打开文件,并写入对应的数据
with open(filename, 'a') as f:
f.write(item['date'] + '\n')
f.write(item['temperature'] + '\n')
f.write(item['weather'] + '\n')
f.write(it