redis数据库属于非关系型数据库,数据存放在内存堆栈中,效率比较高。
其存储数据是以json格式字符串存储字典的,而类似的关系型数据库无法实现这种数据的存储。
在爬取数据时,将数据暂存到redis中,等数据采集完成后,在从redis里将数据读取,并写入mysql数据库中。
在数据采集方面不在多说,只需将项目settings文件下的pipelines管道文件里的本地数据管道注释,让redis来接收数据即可。
从redis写数据入mysql的代码实现:
其实就是一个独立的python脚本文件
import redis
import pymysql
import json,re
def table_exists(con, table_name):
# 判断数据表是否已经创建
sql = 'show tables;'
con.execute(sql)
tables = [con.fetchall()]
table_list = re.findall('(\'.*?\')', str(tables))
table_list = [re.sub("'", '', each) for each in table_list] # 遍历并获得数据库表
if table_name in table_list:
return 1 # 创建了返回1
else:
return 0 # 不创建返回0
def process_item():
#redis数据库创建连接池对象 并实例化一个连接