Scrapy爬虫与Mysql数据库之间的连接

1.需要导的包

import pymysql

2.# mysql连接信息(字典形式)

db_config ={
    'host': '127.0.0.1',#连接的主机id(107.0.0.1是本机id)
    'port': 3306,
    'user': '****',
    'password': '****',
    'db': 'test',#(数据库名)
    'charset': 'utf8'
}

3.# 获得数据库连接

connection = pymysql.connect(**db_config)

4.具体连接(以简书为例)

try:
    # 获得数据库游标(游标提供了一种对从表中检索出的数据进行操作的灵活手段,就本质而言,游标实际上是一种能从包括多条数据记录的结果集中每次提取一条记录的机制。游标总是与一条SQL 选择语句相关联因为游标由结果集(可以是零条、一条或由相关的选择语句检索出的多条记录)和结果集中指向特定记录的游标位置组成。)
    with connection.cursor() as cursor:
        sql = 'insert into simplebook(title, url) values(%s, %s)'
        for u in urls:
            # 执行sql语句
            cursor.execute(sql, (u.string, r'http://www.jianshu.com'+u.attrs['href']))
    # 事务提交
    connection.commit()
finally:
    # 关闭数据库连接
    connection.close()
    ```
    
5.连接数据库成功,并得到数据


  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用Scrapy爬虫将数据保存到数据库的一般步骤如下: 1. 创建一个数据库(例如MySQL)和表来存储数据。 2. 在Scrapy项目中添加数据库驱动和连接设置。 3. 在Scrapy项目中定义Item对象以保存爬取的数据。 4. 在Scrapy项目中编写Pipeline以处理Item对象,将其保存到数据库中。 下面是一个简单的示例,将Scrapy爬虫数据保存到MySQL数据库中: 1. 创建数据库和表 在MySQL中创建一个名为“mydatabase”的数据库,并创建一个名为“mytable”的表,该表包括以下列:id、title、author和content。 ``` CREATE DATABASE mydatabase; USE mydatabase; CREATE TABLE mytable ( id INT NOT NULL AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255) NOT NULL, author VARCHAR(255) NOT NULL, content TEXT NOT NULL ); ``` 2. 添加数据库驱动和连接设置 在Scrapy项目中的settings.py文件中添加MySQL驱动和连接设置: ``` # settings.py ITEM_PIPELINES = { 'myproject.pipelines.MySQLPipeline': 300, } MYSQL_HOST = 'localhost' MYSQL_DBNAME = 'mydatabase' MYSQL_USER = 'root' MYSQL_PASSWORD = 'mypassword' ``` 3. 定义Item对象 在Scrapy项目中的items.py文件中定义Item对象: ``` # items.py import scrapy class MyItem(scrapy.Item): title = scrapy.Field() author = scrapy.Field() content = scrapy.Field() ``` 4. 编写Pipeline 在Scrapy项目中的pipelines.py文件中编写MySQLPipeline: ``` # pipelines.py import mysql.connector class MySQLPipeline(object): def __init__(self, host, dbname, user, password): self.host = host self.dbname = dbname self.user = user self.password = password @classmethod def from_crawler(cls, crawler): return cls( host=crawler.settings.get('MYSQL_HOST'), dbname=crawler.settings.get('MYSQL_DBNAME'), user=crawler.settings.get('MYSQL_USER'), password=crawler.settings.get('MYSQL_PASSWORD') ) def open_spider(self, spider): self.connection = mysql.connector.connect( host=self.host, dbname=self.dbname, user=self.user, password=self.password ) self.cursor = self.connection.cursor() def close_spider(self, spider): self.connection.commit() self.connection.close() def process_item(self, item, spider): self.cursor.execute('INSERT INTO mytable (title, author, content) VALUES (%s, %s, %s)', (item['title'], item['author'], item['content'])) return item ``` 在这个例子中,MySQLPipeline连接MySQL数据库并将爬取的数据保存到“mytable”表中。 确保在Scrapy项目的主文件中启用MySQLPipeline: ``` # main.py from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings from myproject.spiders.myspider import MySpider process = CrawlerProcess(get_project_settings()) process.crawl(MySpider) process.start() ``` 当您运行Scrapy爬虫时,数据将被爬取并保存到MySQL数据库中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值