- 博客(3)
- 资源 (5)
- 收藏
- 关注
原创 hive 处理小文件,减少map数
hive 处理小文件,减少map数 1、hive.merge.mapfiles,True时会合并map输出。 2、hive.merge.mapredfiles,True时会合并reduce输出。 3、hive.merge.size.per.task,合并操作后的单个文件大小。 4、hive.merge.size.smallfiles.avgsize,当输出文件平均大小小于设定值时,启动合并操作。这一设定只有当hive.merg
2014-04-04 13:39:09 4571
转载 MapReduce 中的两表 join 几种方案简介
1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。 本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。 2. 常见的join方法介绍 假设要进行join的数据分别来自File
2014-04-03 12:12:23 1033
Hadoop分布式集群IP配置和VBox linux虚拟机网卡配置
2013-07-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人