- 博客(3)
- 资源 (6)
- 收藏
- 关注
转载 hive大数据倾斜总结
关键词情形后果Join其中一个表较小,但是key集中分发到某一个或几个Reduce上的数据远高于平均值大表与大表,但是分桶的判断字段0值或空值过多这些空值都由一个reduce处理,灰常慢group bygroup by 维度过小,某值的数量过多处理
2015-03-22 22:46:15 2047
原创 hive优化之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有
2015-03-22 22:26:22 559
转载 java对redis的基本操作
一、server端安装 1、下载 https://github.com/MSOpenTech/redis 可看到当前可下载版本:redis2.6 下载windows平台文件: 解压后,选择当前64位win7系统对应的版本: 2、安装 1)解
2015-03-21 17:34:26 1484
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人