借鉴sqoop实现hdfs文件内容导入mysql

最新推荐文章于 2022-10-27 13:12:33 发布

chenchenrao

最新推荐文章于 2022-10-27 13:12:33 发布

阅读量1.2k

点赞数 1

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenchenrao/article/details/44923373

版权

本文介绍了如何借鉴sqoop的思想，将Hadoop MR计算结果从HDFS导入到MySQL。由于业务需求简单，仅使用insert语句，不涉及事务处理，因此并未直接使用sqoop。讨论了批量导入的大小选择，失败后的处理策略，以及MySQL的ON DUPLICATE KEY UPDATE语句在避免重复数据时的作用。代码部分展示了实现细节。

摘要由CSDN通过智能技术生成

这次需要将hadoop mr的计算结果导入到mysql中，虽然是mr的结果导入db中，为了保险起见，还是存在hdfs上，之后读取hdfs上的结果导入db中，读取失败可重新执行单个读取导入过程。

一般先动手前，有个思路，再百度看看是否有更好的实现，大略搜了一下，发现sqoop貌似实现了hdfs和各种dc之间的读取写入。这里，因为业务简单，都是insert语句不涉及事务，只是连接一个db，不涉及mr等操作，so我只是借鉴sqoop的思想，没有使用sqoop。

一般实现的思路就是，读取hdfs文件，生成对应的insert语句，导入mysql就好了。

其中需要详细考虑的几个问题如下：

1、批量导入insert，一般的数据量设置多大好些？

2、执行一般失败后重新导入数据，对于已经导入的数据如何处理？

这里的话，当然批量导入会好些，但是也要考虑hdfs的reader是一个个读取数据，如果批量导入的size太大，需要存储数据的变量占用的内存大，会导致oom。

一般批量insert的量不超过1000条就好了，我这边的话，每天的量也就2000条，so我设置成500条了。

执行一般失败后重新导入数据，感觉要先删除已有导入的数据，再次导入。因为我这边每天导入一次，根据日期做delete就行了。对于不同场景，需要自己操作了。

如果是mysql数据库的话，不用自己删除了。

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。