MySQL导入Hive - DataX方案

最新推荐文章于 2024-09-03 23:05:14 发布

thriving_fcl

最新推荐文章于 2024-09-03 23:05:14 发布

阅读量1.1w

点赞数 1

分类专栏： Data 文章标签： hive 数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/thriving_fcl/article/details/77279026

版权

本文介绍了如何使用阿里开源的DataX工具将数据从MySQL高效地导入到Hive，避免了sqoop可能的数据倾斜问题。DataX通过配置json文件实现MySQLreader与HDFSwriter的连接，通过shell和python脚本进行参数化配置和任务封装，简化了导入流程。

摘要由CSDN通过智能技术生成

MySQL导入Hive可以用sqoop或者dump到本地再load into的方式导入Hive。

还有一种方式就是用阿里开源的DataX，试了一下还挺方便的。用sqoop经常会出现数据倾斜的情况，DataX暂时还没有遇见。

要使用DataX只需要填写一个json格式的配置文件即可，整个安装和使用的方法参照官方给出的Quick Start即可。

配置文件中，主要填写mysqlreader与hdfswriter的信息。虽然是MySQL导入Hive表，但因为Hive的数据实际上是存在HDFS中，因此没有单独的hivewriter，用hdfswriter即可。相关参数的文档见：https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md

但是每个任务都去填JSON文件也比较繁琐，比如jdbcUrl的配置，MySQL的username和password等，当然希望以参数的形式填写，这样以后要换只要改配置文件就好。还有DataX导入HDFS的形式只有append与nonConflict，不支持insert overwrite这种形式，重跑数据还要手动去truncate就太麻烦了。所以为了方便做一些前后处理以及传入参数，还是使用shell来封装一系列的命令，中间再使用python来动态生成json配置文件更好。

python的代码大概如下

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

thriving_fcl CSDN认证博客专家 CSDN认证企业博客

码龄9年

26: 原创

73万+: 周排名

130万+: 总排名

38万+: 访问

: 等级

2550: 积分

168: 粉丝

168: 获赞

203: 评论

363: 收藏

私信

关注

热门文章

分类专栏

最新评论

用于文本相似的Siamese Network
夏日流萤: 为什么L-低于m就设为0，而L+低于m不用设为0呢？
TensorFlow 模型保存/载入的两种方法
信号处理学渣: 谢谢博主分享，想问下，第二种方法好像缺很多代码？那些尺寸都需要给一些初值吧？其次，没有训练数据貌似，最后，train_op也没定义吧？想问下有人给具体数据、给完整的代码么？
Tensorflow实现卷积神经网络，用于人脸关键点识别
qq_44940657: 你好，你找到了吗？能不能也给我
Spark Partition
荒-于嬉: rdd计算的最小单元,RDD具备计算能力吗?我百度的好多说他只是一个数据集,我理解的他在spark中的位置更类似于一个数据源,所有的executor都是从RDD获取数据的.
FastText 文本分类使用心得
yifanrensheng: 那是多标签

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。