利用pandas的to_sql将数据插入MySQL数据库和所踩过的坑

前言

最近做一个Django web的项目要把爬取的一些数据存入MySQL中,数据保存为csv格式,想到pandas中有to_sql这个方法,就采用它了

准备:连接MySQL数据库所需的第三方包pymysql、sqlalchemy(pip安装即可)

实现

from sqlalchemy import create_engine

engine = create_engine("mysql+pymysql://{}:{}@{}/{}?charset={}".format('用户名', '登录密码', '127.0.0.1:3306', '数据库名','字符编码'))
con = engine.connect()#创建连接
df.to_sql(name='rumousdata', con=con, if_exists='append', index=False)

就这么几句,但可能遇到不少问题。我先说下create_engine的url格式吧。用户名、密码不用说,address:port是连接MySQL的ip地址和端口号(默认localhost:3306),数据库名是要连接的数据库,字符编码很重要,要插入中文的话使用utf8

to_sql的几个参数:

  • name是表名
  • con是连接
  • if_exists:表如果存在怎么处理
    • append:追加
    • replace:删除原表,建立新表再添加
    • fail:什么都不干
  • index=False:不插入索引index

遇到的坑

  • 看清楚url的格式,很多人到处粘贴,内容是啥都搞不清就用。mysql+pymysql://,像这里我指明通过pymysql这个包来连接数据库,不是MySqldb,当报错ModuleNotFoundError: No module named 'MySQLdb'找不到MySQLdb这个包时就是这个问题

  • OperationalError: (pymysql.err.OperationalError) (1142, “DROP command denied to user ‘admin’@‘localhost’ for table ‘rumousdata’”)

    • 这个是if_exists=‘replace’,删除表时,用户admin无权限
    • 要么使用root用户,要么申请权限
  • IntegrityError: (pymysql.err.IntegrityError) (1062, “Duplicate entry ‘1’ for key ‘PRIMARY’”)

    • 这个是主键已存在1,不能重复
  • 中文插入失败

    • 一是、没有指定连接的字符编码utf8,通常可见什么latin1什么什么的无法插入
    • 二是、类似(1366, "Incorrect string value: '\xF0\x9F\x92\x9C\xF0\x9F...' for column 'text' at row\xF0\x9F\x92\x9C\xF0\x9F,这种原因因为MySQL不识别有些字符的utf8编码(如表情字符),这时你需要指定连接字符编码为utf8mb4。数据表对应字段编码也改成utf8mb4

If you are running MySQL before 5.5.3, you have only ‘utf8’. If you need Emoji or Chinese, then you need ‘utf8mb4’. The advice in this section assumes you will be going to utf8mb4. If you are going only to utf8, adjust accordingly.
还有一些python对mysql数据库操作、连接可能遇到的问题也可在这里找到:http://mysql.rjweb.org/doc.php/charcoll#python

在这里插入图片描述


版权声明:本文为博主原创文章,未经博主允许不得转载。
Josonle’s Blog
https://blog.csdn.net/lzw2016/


  • 0
    点赞
  • 113
    收藏
    觉得还不错? 一键收藏
  • 15
    评论
好的,以下是使用pandas库中的DataFrame对象的to_sql()方法将数据导入MySQL数据库的示例代码: ```python import pandas as pd from sqlalchemy import create_engine # 数据库连接信息 user = 'your_username' password = 'your_password' host = 'your_host' port = 'your_port' database = 'your_database' # 创建数据库连接 engine = create_engine(f'mysql+pymysql://{user}:{password}@{host}:{port}/{database}') # 读取CSV文件 df = pd.read_csv('student.csv') # 将数据插入数据库表 table_name = 'data' df.to_sql(table_name, engine, index=False, if_exists='replace') # 关闭数据库连接 engine.dispose() ``` 在以上代码中,首先需要使用`create_engine()`方法创建一个数据库连接对象`engine`,并指定连接的相关信息,比如用户名、密码、主机地址、端口号和数据库名称等。然后使用`pandas`库中的`read_csv()`方法读取`student.csv`文件中的数据,并将其存储在一个名为`df`的`DataFrame`对象中。接着,使用`to_sql()`方法将`DataFrame`对象中的数据插入MySQL数据库中的`data`表中,其中需要指定表名、数据库连接对象、是否保留索引和数据存在时的处理方式等参数。最后,使用`dispose()`方法关闭数据库连接。 需要注意的是,使用`to_sql()`方法进行数据插入时,MySQL数据库需要提前设置好表结构,即需要手动创建好与`DataFrame`对象中的数据对应的表,并指定好表中各列的名称、数据类型、约束条件等信息。如果`DataFrame`对象中的数据类型与MySQL数据库中的数据类型不一致,可能会导致数据插入失败。因此,在使用`to_sql()`方法之前,需要先确认数据类型是否匹配,以便顺利完成数据导入。
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值