scrapy之pipelines存数据库Mysql(一)

本文介绍了如何使用Scrapy的pipelines将爬取的数据存储到MySQL数据库,包括在settings.py的配置,以及利用缓存数据库进行去重的策略。文中提到,针对不同数据量,可以选择不同的去重方式,如关系型数据库、Redis或内存去重,并详细阐述了采用缓存数据库(如Redis Set)作为去重机制的原因和关键代码实现。
摘要由CSDN通过智能技术生成

scrapy爬取成功后可以保存在本地或者数据库,保存的格式也是多样的。可参考官方文档

https://docs.scrapy.org/en/latest/topics/item-pipeline.html#writing-your-own-item-pipeline

本文总结保存mysql

首先,setting.py文件配置

ITEM_PIPELINES = {
    xxxxx
   'ArticleSpider.pipelines.MysqlPipeline': 20,
    xxxxx
}

pipelines.py中写数据库保存的具体方法:
MysqlPipeline(采用同步机制,且不添加去重逻辑时,最简单的实现)
class MysqlPipeline(object):
    def __init__(self):
        self.conn = MySQLdb.connect('xxxx', 'mysql', 'xxxx', 'xxxx', charset="utf8", use_unicode=True)
        self.cursor = self.conn.cursor()
    def process_item(self, item, spider):
        #新的url进行存储
        insert_novelinfo_sql = """
                    insert into novel_info(novel_id, novel_url,title,author,introduction,category,picture_url,picture_path,update_time)
                    VALUES (%s, %s, %s, %s,%s, %s, %s, %s, %s)
                """
        insert_noveldetail_sql = """
                      insert into novel_content(novel_id, chapter_url,chapter_id,chapter_name,novel_detail)
                      VAL
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值