python爬虫写入数据库_Python爬虫数据写入操作

Python Scrapy爬虫数据写入操作

在我们写完一个爬虫项目,得到了一大堆的数据,为了以后的分析和使用,我们需要把我们得到的数据进行保存。保存数据的方式主要有:保存到数据库,保存到CSV文件,保存为JSON文件。

保存到数据库中分为同步和异步的方式:

一般小的数据,我们可以选择,同步保存数据库:

首先先准备好数据库文件和数据表

操作在pipelines.py文件中完成

将item写入数据库

importMySQLdb

classMysqlPipeine(object):

def__init__(self):

self.conn = MySQLdb.connect(

host= 'localhost',

# mysql默认端口号3306port= 3306,

user= 'root',

passwd= '123456',

db= 'db_name',

use_unicode= True,

charset= 'utf8')

self.cursor = self.conn.cursor()

# 处理item的函数defprocess_item(self, item, spider):

# 准备sql语句sql = 'insert into table_name(字段名)VALUES (字段数据,即item对象)'self.cursor.execute(sql)

self.conn.commit()

defclose_spider(self, spider):

self.cursor.close()

self.conn.close()

如果数据量较大,异步写入数据库会更高效:

同样操作在我们的pipelines文件中,但在操作之前,需要配置我们的setting文件,在其中添加我们的数据

# 自己配置一些项目信息# 数据库配置MYSQL_HOST = '127.0.0.1'MYSQL_PORT = 3306MYSQL_USER = 'root'MYSQL_PASSWD = '123456'MYSQL_CHARSET = 'utf8'MYSQL_DBNAME = 'db_name'然后在pipelines中进行我们异步写入数据库的操作:

# 将item写入数据库importMySQLdb

classMysqlPipeine(object):

def__init__(self):

self.conn = MySQLdb.connect(

host= 'localhost',

# mysql默认端口号3306port= 3306,

user= 'root',

passwd= '123456',

db= 'db_name',

use_unicode= True,

charset= 'utf8')

self.cursor = self.conn.cursor()

# 处理item的函数defprocess_item(self, item, spider):

# 准备sql语句sql = 'insert into table_name(字段名)VALUES (字段数据,即item对象)' self.cursor.execute(sql)

self.conn.commit()

defclose_spider(self, spider):

self.cursor.close()

self.conn.close()

如果数据量较大,异步写入数据库会更高效:

同样操作在我们的pipelines文件中,但在操作之前,需要配置我们的setting文件,在其中添加我们的数据

# 自己配置一些项目信息# 数据库配置MYSQL_HOST = '127.0.0.1'MYSQL_PORT = 3306MYSQL_USER = 'root'MYSQL_PASSWD = '123456'MYSQL_CHARSET = 'utf8'MYSQL_DBNAME = 'db_name'然后在pipelines中进行我们异步写入数据库的操作:

fromtwisted.enterprise importadbapi

fromMySQLdb importcursors

classMysqlTwistedPipeline(object):

@classmethod# 这个函数会自动调用deffrom_settings(cls, settings):

# 准备好连接数据库需要的参数db_params = dict(

host=settings["MYSQL_HOST"],

port=settings["MYSQL_PORT"],

user=settings["MYSQL_USER"],

passwd=settings["MYSQL_PASSWD"],

charset=settings["MYSQL_CHARSET"],

db=settings["MYSQL_DBNAME"],

use_unicode=True,

# 指定游标类型cursorclass=cursors.DictCursor

)

# 创建连接池# 1.要连接的名称 2.连接需要的参数db_pool = adbapi.ConnectionPool('MySQLdb', **db_params)

# 返回当前类的对象,并且把db_pool赋值给该类的对象returncls(db_pool)

def__init__(self, db_pool):

# 赋值self.db_pool = db_pool

# 处理item函数defprocess_item(self, item, spider):

# 把要处理的事件进行异步处理# 1.要处理的事件函数# 2.事件函数需要的参数query = self.db_pool.runInteraction(self.do_insert, item)

# 执行sql出现错误信息query.addErrback(self.handle_error, item, spider)

# 错误的原因defhandle_error(self, failure, item, spider):

printfailure

# 处理插入数据库的操作# cursor该函数是连接数据库的函数,并且放在异步去执行,cursor执行sql语句defdo_insert(self, cursor, item):

# 1.准备sql语句sql = 'insert into table_name(表中各个字段名)VALUES (各个字段对应的数据item)'# 2.用cursor游标执行sqlcursor.execute(sql)

写入CSV文件的操作:

同样操作在我们的pipelines.py文件中进行

# 写入csv文件importcsv

importcodecs

classSaveCSVFile(object):

def__init__(self):

file_handle = codecs.open('name.csv', 'w', encoding='utf-8')

# 1. 创建csv文件self.csv = csv.writer(file_handle)

self.csv.writerow(表头的信息)

defprocess_item(self, item, spider):

self.csv.writerow(表头信息所对应的每个item对象)

returnitem

def__del__(self):

# 关闭文件self.file_handle.close()

写入json文件:

importjson

classJsonPipeline(object):

def__init__(self):

self.file_handle = codecs.open('name.json', 'w', encoding='utf-8')

defprocess_item(self, item, spider):

data = json.dumps(dict(item), ensure_ascii=False) + "\n"self.file.write(data)

returnitem

def__del__(self):

# 关闭文件self.file_handle.close()

在我们完成pipelines中的函数重写后,一定要记得在setting文件中配置,以确保其能正常执行。

如果同时在pipelines中进行多种方式的写入的话,切记要在process_item函数中返回item,即return item

还有一种简单的保存csv / json文件的方法:

在编辑器命令行输入:scrapy crawl spider - o name.json / csv - s FEED_EXPROT_ENCODING = UTF8

FEED_EXPORT_ENCODING = UTF8指保证文件中的中文正常显示

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值