大数据
Rainmt_水战
这个作者很懒,什么都没留下…
展开
-
O2O中客户主数据、数据仓库和大数据
在O2O项目中强调电子化和数字化,因此数据是个很关键的基础工作。而围绕数据,那么经常提到的客户主数据和数据仓库、大数据是什么关系呢?今天我们简单来聊聊,帮助大家理顺一下思路。O2O强调的是客户体验,所有的流程和场景都离不开人,都是以人为本。所以,O2O项目中,对人的数据非常关注,尤其是用户的主数据模型的设计,以及对应主数据模型的数据采集、用户ID的统一等等,而基于主数据模型进行ID统一和主转载 2015-11-27 10:15:06 · 2085 阅读 · 0 评论 -
hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2016-12-29 10:47:06 · 354 阅读 · 0 评论 -
hive-数据倾斜解决详解
hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案1、join的key值发生倾斜,key值包含很多空值或是异常值这种情况可以对异常值赋一个随机值来分散key如:selectuserid , name fromus转载 2016-12-29 10:48:27 · 688 阅读 · 0 评论 -
Hive分区表实战
1. Hive分区表Partition和Bucket,为了提升查询效率,前者是粗粒度的划分,后者是细粒度的划分。建表语句中使用partitioned by指定分区字段分区表有静态分区和动态分区两种。若分区的值是确定的,那么称为静态分区字段,反之,若分区的值是非确定的,那么称之为动态分区字段。默认是采用静态分区。2. 静态分区应用场景1每天有很多不同的商店各自会产生成转载 2016-12-29 10:50:32 · 1455 阅读 · 0 评论 -
Hive数据倾斜总结
倾斜的原因: 使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。解决思路: Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决转载 2016-12-29 11:07:56 · 597 阅读 · 0 评论 -
基于Hadoop的数据仓库Hive 学习指南
转载http://blog.csdn.net/achuo/article/details/51332214本指南介绍了Hive,并详细指引读者安装Hive。 前面第几章学习指南已经指导大家安装Linux操作系统,并安装配置了Hadoop,但是这只表明我们已经安装好了Hadoop分布式文件系统,而Hive需要另外下载安装,本指南就是详细指导大家安装并配置Hive,完成后大家可以结转载 2017-01-10 16:56:53 · 687 阅读 · 0 评论 -
Greenplum或DeepGreen数据库查看表倾斜的方法总结
http://blog.csdn.net/jiangshouzhuang/article/details/51792580上次有个朋友咨询我一个GP数据倾斜的问题,他说查看gp_toolkit.gp_skew_coefficients表时花费了20-30分钟左右才出来结果,后来指导他分析原因并给出其他方案来查看数据倾斜。 目前他使用的版本是最新的版本为:转载 2017-01-20 15:25:26 · 1494 阅读 · 0 评论