scrapy Pipline保存到数据库

该博客介绍了一个Python爬虫项目,使用TqybPipeline类将抓取的天气数据存储到MSSQL数据库中。通过pymssql库连接数据库,实现数据的插入操作,并在spider关闭时确保数据库连接的正确关闭。
摘要由CSDN通过智能技术生成
import json
import pymssql
class TqybPipeline:
    # #保存到当前路径
    # def open_spider(self,spider):
    #      self.fp=open("天气.txt",'w',encoding='utf-8')
    # def process_item(self, item, spider):
    #     self.fp.write(json.dumps(dict(item),ensure_ascii=False)+"\n")
    #     return item
    # def close_spider(self,spider):
    #      self.fp.close()
    def __init__(self):
        self.conn = pymssql.connect(server='192.168.1.104',port=1433,user='sa',password='******',database='stuDB',charset='UTF-8')
        self.cursor = self.conn.cursor()
    def process_item(self,item,spider):
        sql = 'insert into tianqi(rq,tq,tem,dw,city) values(%s,%s,%s,%s,%s)'
        self.cursor.execute(sql,(item['day'],item['tq'],item['gw'],item['dw'],item['city']))
        # sql ='select * from tianqi'
        # self.cursor.execute(sql)
        self.conn.commit()
        return item
    def spider_close(self,spider):
        self.cursor.close()
        self.conn.close()
在setting中添加
ITEM_PIPELINES = {
    'tqyb.pipelines.TqybPipeline': 300,

}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用Scrapy爬虫将数据保存数据库的一般步骤如下: 1. 创建一个数据库(例如MySQL)和表来存储数据。 2. 在Scrapy项目中添加数据库驱动和连接设置。 3. 在Scrapy项目中定义Item对象以保存爬取的数据。 4. 在Scrapy项目中编写Pipeline以处理Item对象,将其保存数据库中。 下面是一个简单的示例,将Scrapy爬虫数据保存到MySQL数据库中: 1. 创建数据库和表 在MySQL中创建一个名为“mydatabase”的数据库,并创建一个名为“mytable”的表,该表包括以下列:id、title、author和content。 ``` CREATE DATABASE mydatabase; USE mydatabase; CREATE TABLE mytable ( id INT NOT NULL AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255) NOT NULL, author VARCHAR(255) NOT NULL, content TEXT NOT NULL ); ``` 2. 添加数据库驱动和连接设置 在Scrapy项目中的settings.py文件中添加MySQL驱动和连接设置: ``` # settings.py ITEM_PIPELINES = { 'myproject.pipelines.MySQLPipeline': 300, } MYSQL_HOST = 'localhost' MYSQL_DBNAME = 'mydatabase' MYSQL_USER = 'root' MYSQL_PASSWORD = 'mypassword' ``` 3. 定义Item对象 在Scrapy项目中的items.py文件中定义Item对象: ``` # items.py import scrapy class MyItem(scrapy.Item): title = scrapy.Field() author = scrapy.Field() content = scrapy.Field() ``` 4. 编写PipelineScrapy项目中的pipelines.py文件中编写MySQLPipeline: ``` # pipelines.py import mysql.connector class MySQLPipeline(object): def __init__(self, host, dbname, user, password): self.host = host self.dbname = dbname self.user = user self.password = password @classmethod def from_crawler(cls, crawler): return cls( host=crawler.settings.get('MYSQL_HOST'), dbname=crawler.settings.get('MYSQL_DBNAME'), user=crawler.settings.get('MYSQL_USER'), password=crawler.settings.get('MYSQL_PASSWORD') ) def open_spider(self, spider): self.connection = mysql.connector.connect( host=self.host, dbname=self.dbname, user=self.user, password=self.password ) self.cursor = self.connection.cursor() def close_spider(self, spider): self.connection.commit() self.connection.close() def process_item(self, item, spider): self.cursor.execute('INSERT INTO mytable (title, author, content) VALUES (%s, %s, %s)', (item['title'], item['author'], item['content'])) return item ``` 在这个例子中,MySQLPipeline连接到MySQL数据库并将爬取的数据保存到“mytable”表中。 确保在Scrapy项目的主文件中启用MySQLPipeline: ``` # main.py from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings from myproject.spiders.myspider import MySpider process = CrawlerProcess(get_project_settings()) process.crawl(MySpider) process.start() ``` 当您运行Scrapy爬虫时,数据将被爬取并保存到MySQL数据库中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值