Mysql载入大量数据(load data infile)的优化过程

最新推荐文章于 2024-05-22 15:21:54 发布

speak_is_cheap

最新推荐文章于 2024-05-22 15:21:54 发布

阅读量1.5w

点赞数 2

文章标签： Mysql 大数据导入

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/speak_is_cheap/article/details/51050410

版权

公司开发的某个产品需要从文本格式的文件导入大量数据, 其中某一个表特别大, 数据文件有接近30G, 大概有6千万行数据. MySQL提供了很强大的工具, load data infile, 具体格式不去介绍了, 它的主要优势在于批量插入数据.

服务器是20核 cpu.

MySQL 部分配置大概如下:

innodb_buffer_pool_size = 20000M

innodb_file_per_table = 1
innodb_flush_method = O_DIRECT

innodb_flush_log_at_trx_commit = 0

直接开始load数据, 结果悲剧开始了, 命令执行了1个小时,没结果, 2个小时, 还是没结果.

开另外一个终端连到数据库, 查询当前表的行数, 结果是0, 说明 load data infile是一个transaction, 在当前的隔离级别下, 没load完是看不到数据的.

用TOP看了一下资源使用情况, MySQL 只使用了接近100%的CPU(最高2000%).

漫长的等待, 只好做点别的事情...

快下班了, 终于load结束, 看时间统计,执行了5个半小时!

晚上睡觉还一直在思考这个问题, 号称最快的load data infile为什么这样慢?是innodb_buffer_pool_size 太小? 很有可能, 因为文件已近有30G, 比buffer小了10G! 一阵狂喜, 找到答案啦!

一早赶到公司, 把buffer改成40G, 重新执行load data infile, 漫长的等待...

结果很失望, 只加快了十几分钟, 没什么根本的改善! 想了很久, 发现有个地方有点问题, MySQL号称多线程, 为什么加载数据的时候只使用了5%的总CPU时间呢? 其他19个CPU在看戏啊!

想到这个, 立刻有了思路, 多线程解决之! 先将这个大文件切割成,小文件,然后多线程执行load data infile!

linux提供了split命令, 非常方便, 将文件切成150万行的40个小文件.

改代码, 启动40个线程, 分别执行load data infile!

很快遇到了错误: Lock wait timeout exceeded!

Google之, 发现innodb_lock_wait_timeout使用了默认值, 50秒, 改成1000秒.

重新执行, 没有看到lock的错误. 察看CPU使用率,接近900%, 说明MySQL的多线程起作用了!等待了接近50分钟, 加载完成, 登陆到数据库,

查行数, 和待导入文件的行数一致!

补充其他几个需要配置的参数:

innodb_doublewrite = 0

innodb_log_file_size = 2048M

innodb_log_buffer_size=2048M

总结:

1, 多观察程序执行时候的资源使用情况.

2, 数据库是很笨的, 不要想当然的以为它很聪明, 这也是

为什么数据库要简单,简洁的原因!

关注

2
点赞
踩
30

收藏

觉得还不错? 一键收藏
3
评论
Mysql载入大量数据(load data infile)的优化过程

如何加快MySQL导入数据的速度
复制链接

扫一扫

speak_is_cheap CSDN认证博客专家 CSDN认证企业博客

码龄8年

1: 原创

138万+: 周排名

38万+: 总排名

1万+: 访问

: 等级

114: 积分

1: 粉丝

2: 获赞

3: 评论

27: 收藏

私信

关注

热门文章

Mysql载入大量数据(load data infile)的优化过程 15949

分类专栏

MySQL

最新评论

Mysql载入大量数据(load data infile)的优化过程
lyjie: load data不是会锁表的么，你这？？？？
Mysql载入大量数据(load data infile)的优化过程
嗯嗲和滴: 目前切分了文件，python使用的是多进程，但是这个多进程最近运行都没看到效果。就是不用多进程和用了多进程没啥区别。而且据我打印结果显示，确实是顺序执行的。。。所以很想知道你是怎么开多进程的，恳请多多指教 [code=python] # 多进程执行文件入库 from multiprocessing import Pool pool = Pool(processes=6) for file in files: print("当前运行file为"+file) path = home_path+os.sep+file process = Popen('/home/mysql/app/bin/mysql -h%s -P%s -u%s -p%s %s' % (host, port, usr, passwd, dbname), stdout=PIPE, stdin=PIPE, shell=True) pool.apply_async(func=process.communicate('load data local infile \'' + path + '\' into table test.manycolstab fields terminated by \'｜\' OPTIONALLY ENCLOSED BY \'\\\'\' lines terminated by \'\\n\'')) print("当前运行file" + file+"已运行完成") end = datetime.datetime.now() print(2222222222222222222) print("耗费时间%s" % (end-start)) [/code]
Mysql载入大量数据(load data infile)的优化过程
weixin_43856447: 能否提供一下具体多线程导入的代码呢，目前已经到了分隔大文件中这里，但是不知道怎么开多线程

大家在看

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。