MongoDB往Hive导数据

最新推荐文章于 2023-11-09 15:38:23 发布

thriving_fcl

最新推荐文章于 2023-11-09 15:38:23 发布

阅读量8.8k

点赞数

分类专栏： Data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/thriving_fcl/article/details/52503394

版权

注：这里用Hive泛指数据仓库，数据还是存储在HDFS里。

想要从MongoDB往Hive导数据主要有两种方式

1. Hive直接连接MongoDB

Hive连接MongoDB这篇讲了怎么连接。

使用这种方式的好处在于，直接创建一个Hive的表，用于映射MongoDB里的数据。也就是数据仍然还在MongoDB内，创建映射表的时间非常短。

但是坏处也同样在这，如果要把数据ETL到Hive表，这种方式必须执行map reduce，一直从MongoDB里面取数据，连接的稳定性受到网络环境影响。

在用这种方式导数据的时候遇到过两个坑。

执行map reduce耗时太长，这里一部分是网络原因，还有一部分是起了太多的map 任务，也就是将任务切分的过细，每个map只处理很少的任务，耗费太多资源，坑在于设置map数的参数不同于hive默认的参数。要在执行HQL前输入set mongo.input.split_size=n，这个n就是将mongo collection切分成若干份，每份的大小，单位是MB。默认的设置是8，将它改成128以后，mapper的数量明显减少了，总的执行时间也提高了。还有一种设置方法，是修改hadoop的yarn-site.xml配置文件，添加

最低0.47元/天解锁文章

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
MongoDB往Hive导数据

注：这里用Hive泛指数据仓库，数据还是存储在HDFS里。想要从MongoDB往Hive导数据主要有两种方式。
复制链接

扫一扫

专栏目录

thriving_fcl CSDN认证博客专家 CSDN认证企业博客

码龄8年

26: 原创

73万+: 周排名

95万+: 总排名

38万+: 访问

: 等级

2542: 积分

168: 粉丝

168: 获赞

203: 评论

363: 收藏

私信

关注

热门文章

分类专栏

最新评论

用于文本相似的Siamese Network
夏日流萤: 为什么L-低于m就设为0，而L+低于m不用设为0呢？
TensorFlow 模型保存/载入的两种方法
信号处理学渣: 谢谢博主分享，想问下，第二种方法好像缺很多代码？那些尺寸都需要给一些初值吧？其次，没有训练数据貌似，最后，train_op也没定义吧？想问下有人给具体数据、给完整的代码么？
Tensorflow实现卷积神经网络，用于人脸关键点识别
qq_44940657: 你好，你找到了吗？能不能也给我
Spark Partition
荒-于嬉: rdd计算的最小单元,RDD具备计算能力吗?我百度的好多说他只是一个数据集,我理解的他在spark中的位置更类似于一个数据源,所有的executor都是从RDD获取数据的.
FastText 文本分类使用心得
yifanrensheng: 那是多标签

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。