嫌pandas的to_sql方法过慢？神方法让你一分钟搞定

最新推荐文章于 2024-08-23 13:24:56 发布

Lenskit

最新推荐文章于 2024-08-23 13:24:56 发布

阅读量3.3w

点赞数 7

分类专栏： python 文章标签： pandas python to_sql

本文链接：https://blog.csdn.net/chenkfkevin/article/details/72911525

版权

python 专栏收录该内容

68 篇文章 6 订阅

订阅专栏

import cStringIO

output = cStringIO.StringIO()
# ignore the index
df_a.to_csv(output, sep='\t',index = False, header = False)
output.getvalue()
# jump to start of stream
output.seek(0)

connection = engine.raw_connection() #engine 是 from sqlalchemy import create_engine
cursor = connection.cursor()
# null value become ''
cursor.copy_from(output,table_name,null='')
connection.commit()
cursor.close()

本来50万条数据，使用pd.to_sql方法，设置chunksize=2000，跑了5个小时。

而上面这个方法，插40万条数据，只需1分钟。

方法来自国外大牛，搬运至此，造福大家。

其实原理是使用了pg内置的copy_from方法，SUPER FAST！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Lenskit

关注关注

7
点赞
踩
106

收藏

觉得还不错? 一键收藏
23
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

关于pandas中to_sql性能太慢的优化

weixin_44313745的博客

09-22

3262

关于pandas中to_sql性能太慢的优化

pandas mysql 性能_熊猫to_sql（）的性能 - 为什么这么慢？

weixin_35915120的博客

01-28

949

我遇到了Pandas的性能问题，并将DataFrame写入SQL DB。为了尽可能快地使用我使用的memSQL(这就像代码中的MySQL，所以我不必做任何事情)。我刚刚对我的实例进行了基准测试：熊猫to_sql()的性能 - 为什么这么慢？docker run --rm -it --link=memsql:memsql memsql/quickstart simple-benchmarkCreat...

23 条评论您还未登录，请先登录后发表或查看评论

Pandas里使用SQL

最新发布

08-23

543

Pandas 提供了多种方式来使用 SQL 语句操作数据，主要包括以下几个方面：

pandas to_sql插入过慢

Jalen备忘录

06-26

7319

插入时指定dtype，一般为varchar，长度写大一点 def set_d_type_dict(df): type_dict = {} for i, j in zip(df.columns, df.dtypes): if "object" in str(j): type_dict.update({i: VARCHAR(512)}) ...

pandas to_sql写入数据很慢

weixin_41956627的博客

12-25

396

最开始没加dtype，发现to_sql很慢，几百条数据都要十多秒；而且有时候会有如下莫名其妙的报错，但仔细检查数据发现数据是没问题的。后面加上 to_sql 中加上 dtype 参数后，就快非常快了，上万条数据不到1s，而且同样的数据也没报错了。嫌pandas的to_sql方法过慢？神方法让你一分钟搞定。有个任务需要通过pandas向oracle写数据。这个好像是专门针对postgresql 的。解决问题时，发现几篇相关文章，记录下。Pandas to_sql详解。

一个pandas中to_sql的效率问题。

weixin_47086112的博客

06-23

2413

今天遇到了一个pandas中to_sql的数据导入数据库的问题一开始直接使用pd.DataFrame进行取值以后，就直接to_sql，进入数据库，我用的数据库是Oracle，然后进去的值都是COL类型的，可能3000多条用了半小时，后面我指定了每一行值得具体类型以后，就非常快的完成了数据的抓取，反思在过程中，对象也需要明确到底是什么，全部交给代码来分析是不妥当费事的。 ...

【Pandas】深入解析`pd.to_sql()`函数

qq_38614074的博客

05-28

1655

函数是Pandas库中的一个方法，它允许我们将DataFrame对象中的数据写入SQL数据库。该函数的主要参数包括数据库连接对象、表名、数据框、是否创建表（如果表不存在）、索引处理、数据类型映射等。下面我们将详细解析这些参数。函数是Pandas库中一个非常实用的功能，它允许我们将DataFrame中的数据轻松写入SQL数据库。通过深入了解其参数和用法，我们可以更加高效、安全地将数据从Pandas转移到SQL数据库中。希望本文的解析和案例能够帮助你更好地理解和使用函数。

Python 高性能编程

GitChat

04-13

4745

你将获得通过阅读本书，你将能够：更好地掌握 numpy、Cython 和剖析器；了解 Python 如何抽象化底层的计算机架构；使用剖析手段来寻找 CPU 时间和内存使用的瓶颈；通过选择合适的数据结构来编写高效的程序；加速矩阵和矢量计算；使用工具把 Python 编译成机器代码；管理并发的多 I O 和计算操作；把多进程代码转换到在本地或者远程集群上运行；用更少的内存...

python etl 大猩猩_用于ETL的Python数据转换工具详解

weixin_34002071的博客

12-24

572

ETL的考虑做数据仓库系统，ETL是关键的一环。说大了，ETL是数据整合解决方案，说小了，就是倒数据的工具。回忆一下工作这么些年来，处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量，使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中，ETL上升到了一定的理论高度，和原来小打小闹的工具使用不同了。究竟什么不同，从名字上就可以看到，人家已经将倒...

助你解锁万物智联新机遇 —— YMatrix 超融合数据库

weixin_57459958的博客

12-08

967

为什么数据库的未来一定会走向“超融合”？

百日计划：第一周，《七周成为数据分析师》课程近万字总结

无小意的博客

03-12

9390

无小意个人博客：无小意知乎主页：无小意丶公众号：数据路（shuju_lu）百日计划第一周总结 1. 计划 1.彻底结束之前预定暑假完成的天善学院课程《七周数据分析师》 2.总结《七周数据分析师》。 2. 完成情况 1.完成《七周成为数据分析师》任务 2.周总结与《七周数据分析师》一起完成。《七周数据分析师》总结第一周：数...

pandas实现to_sql将DataFrame保存到数据库中

12-26

目的在数据分析时，我们有中间结果，或者最终的结果，需要保存到数据库中；或者我们有一个中间的结果，如果放到数据库中通过sql操作会更加的直观，处理后再将结果读取到DataFrame中。这两个场景，就需要用到DataFrame的to_sql操作。具体的操作连接数据库代码 import pandas as pd from sqlalchemy import create_engine # default engine = create_engine('mysql+pymysql://ledao:ledao123@localhost/pandas_learn') original_data

backtrader实战：如何提高backtrader调试代码的速度

汇渊科技

07-20

931

一种提高backtrader代码调试速度的解决方案，满篇都是技巧~~

python pandas to_sql 的用法

热门推荐

zoe的博客

10-11

4万+

网上使用pymysql或者MySQLdb，只能说是错误的，文档里边提供了说明跟一个例子说明：例子：所以pandasto_sql的用法如下： import pandas as pd from sqlalchemy import create_engine conn = create_engine('mysql+mysqldb://root:...

python to sql_使用sqlalchemy的python pandas to_sql：如何加快导...

weixin_39624071的博客

11-30

612

DataFrame.to_sql方法为ODBC连接器生成插入语句,然后ODBC连接器将其视为常规插入.当这很慢时,它不是大熊猫的错.将DataFrame.to_sql方法的输出保存到文件,然后通过ODBC连接器重播该文件将花费相同的时间.将数据批量导入数据库的正确方法是生成csv文件,然后使用load命令,该命令在SQL数据库的MS风格中称为BULK INSERT例如：BULK INSERT my...

pandas to_sql 浅析

薛秋艳的博客

07-30

5445

pandas to_sql 官方解释方法应用 to_sql(name, con, flavor=None, schema=None, if_exists=’fail’, index=True, index_label=None, chunksize=None, dtype=None) 这里的con 跟 read_sql con 是不同的这里con是这样的格式 from sql...

pd.to_sql()使用方法

ainivip的专栏

03-04

5206

to_sql 使用方法：参见pandas.to_sql函数，主要有以下几个参数： name: 输出的表名 con: 与read_sql中相同，数据库链接 if_exits：三个模式：fail，若表存在，则不输出；replace：若表存在，覆盖原来表里的数据；append：若表存在，将数据写到原表的后面。默认为fail index：是否将df的index单独写到一列中 index_label:指定列作为df的index输出，此时index为True ch...

pd.to_sql()知道这些就够用了

漫步量化

01-22

3万+

to_sql 参见pandas.to_sql函数，主要有以下几个参数： name: 输出的表名 con: 与read_sql中相同，数据库链接 if_exits：三个模式：fail，若表存在，则不输出；replace：若表存在，覆盖原来表里的数据；append：若表存在，将数据写到原表的后面。默认为fail index：是否将df的index单独写到一列中 index_label:指定列作为d...

pandas的to_sql函数使用

zkkkkkkkkkkkkk的博客

04-27

1715

pandas的to_sql函数使用使用pandas的to_sql将data数据写入到mysql 引入相关库函数

pandas to_sql

07-09

pandas to_sql 是一个用于将 Pandas 数据框(DataFrame)中的数据导入到关系型数据库中的方法。它允许你将数据框中的数据以表的形式保存到数据库中。使用 to_sql 方法，你需要先建立一个数据库连接，然后将数据框中的数据传递给 to_sql 方法。示例代码如下： ```python import pandas as pd from sqlalchemy import create_engine # 建立数据库连接 engine = create_engine('数据库连接字符串') # 创建一个数据框 data = pd.DataFrame({'column1': [1, 2, 3, 4], 'column2': ['A', 'B', 'C', 'D']}) # 将数据框中的数据写入数据库中的表 data.to_sql('表名', con=engine, if_exists='replace') ``` 在上面的代码中，你需要将 `'数据库连接字符串'` 替换为你自己的数据库连接字符串，`'表名'` 替换为你想要保存数据的表名。`if_exists` 参数用于指定如果表已经存在时的操作方式，可以设置为 `'replace'`（替换原表），`'append'`（追加至原表），或者 `'fail'`（如果表已存在则报错）。注意，使用 to_sql 方法需要安装 SQLAlchemy 库。