Python 利用Pandas把数据直接导入Mysql


公众号后台回复“图书“,了解更多号主新书内容

作者:数据人阿多

来源:DataShare

需要把txt文件数据导入mysql数据库,中间需要经过一些数据处理,在经过相关查找后,pandas自带的to_sql(),可以实现把DataFrame直接导入数据库。

虽然mysql有其他的方式导入数据,但是在导入前需要对数据进行一些处理,这些任务无法完成,所以可以借助python来一步实现所有需求。

pandas在处理表格数据有很多优点:API多比较方便、速度快;可循环每行,对每个值进行处理;也可对整列进行处理等

在导入数据库时用的是如下API:
Pandas.DataFrame.to_sql()

参数介绍及注意事项

官方文档:[https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_sql.html]

DataFrame.to_sql(namecon, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=None, method=None)

常用参数:

  • name
    导入到mysql时表的名字
    如果mysql里面已经用CREATE TABLE创建好了表,那么就是该表名字
    如果mysql没有创建好表,那么可以自己起一个合适的表名

  • con
    数据库连接,需要安装sqlalchemy库,目前仅支持sqlalchemy库创建的连接,pymysql库创建的连接不支持

1engine = create_engine("mysql+pymysql://root:z123456@127.0.0.1:3306/routeapp?charset=utf8")
2#SQLALCHEMY_DATABASE_URI = '%s+%s://%s:%s@%s:%s/%s' % (DB_TYPE, DB_DRIVER, DB_USER,DB_PASS, DB_HOST, DB_PORT, DB_NAME)
  • if_exists:以下三个选项,是如果数据库里面已经存在该表的意思
    "fail":直接报错,不再操作,类似mysql创建表时的IF NOT EXISTS才创建表
    "replace":先删除该表,然后再创建
    "append":直接在表后面添加数据

  • index:bool
    是否把DataFrame的索引列写入表中

  • index_label
    如果要把DataFrame的索引列写入表中,那么需要给出该索引列的名字,如果没给的话,那就会用DataFrame的列索引名

注意事项:
con 参数一定要仔细核对,否则数据库会连接失败,可参照上面给出的例子按自己的实际数据库位置进行更改

案例

首先电脑上已安装:mysql软件、sqlalchemy库、pandas库

现在有一些城市之间的火车车次信息,需要导入数据库

1import pandas as pd
2data=pd.read_table('./data_pandas.txt')
3data.head()
城市之间火车信息

假如数据库里面已经创建好该表,并且已经指定好各列的数据类型,现在只需把数据导入到里面

 1CREATE TABLE IF NOT EXISTS train (
 2    start_city VARCHAR (100) NOT NULL COMMENT '始发城市',
 3    start_city_id int COMMENT '始发城市id',
 4    end_city VARCHAR (100) NOT NULL COMMENT '到达城市',
 5    end_city_id int COMMENT '到达城市id',
 6    train_code VARCHAR (20) NOT NULL COMMENT '车次',
 7    arrival_time VARCHAR (20) NOT NULL COMMENT '到达时间',
 8    departure_time VARCHAR (20) NOT NULL COMMENT '出发时间',
 9    run_time INT NOT NULL COMMENT '运行时间(分钟)',
10    P1 FLOAT COMMENT '硬座票价',
11    P2 FLOAT COMMENT '软座票价',
12    P3 FLOAT COMMENT '硬卧票价',
13    P4 FLOAT COMMENT '软卧票价',
14    P5 FLOAT COMMENT '商务座票价',
15    P6 FLOAT COMMENT '一等座',
16    P7 FLOAT COMMENT '二等座'
17) ENGINE = INNODB DEFAULT CHARSET = utf8 COMMENT = '城市之间火车信息';

借助sqlalchemy库来导入数据

1from sqlalchemy import create_engine
2
3engine = create_engine("mysql+pymysql://root:z123456@127.0.0.1:3306/routeapp?charset=utf8")
4
5#SQLALCHEMY_DATABASE_URI = '%s+%s://%s:%s@%s:%s/%s' % (DB_TYPE, DB_DRIVER, DB_USER,DB_PASS, DB_HOST, DB_PORT, DB_NAME)
6
7with engine.begin() as conn:
8    data.to_sql(name='routeapp_train_line_tb_new_2',con=conn,if_exists='append',index=False)


这里用with语句可以实现mysql的roallback功能,建议最好用with来导入数据

导入数据

参考文章

  • python3 pandas to_sql填坑

    [https://blog.csdn.net/qnloft/article/details/87979937]

  • Commit and rollback with pandas.DataFrame.to_sql()

    [https://capelastegui.wordpress.com/2018/05/21/commit-and-rollback-with-pandas-dataframe-to_sql/]

历史相关文章


◆ ◆ ◆  ◆ ◆麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:


数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
猜你喜欢
● 卧槽!原来爬取B站弹幕这么简单● 厉害了!麟哥新书登顶京东销量排行榜!● 笑死人不偿命的知乎沙雕问题排行榜
● 用Python扒出B站那些“惊为天人”的阿婆主!● 你相信逛B站也能学编程吗
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值