Rainmt_水战-CSDN博客

转载 Hive 基础之：分区、桶、Sort Merge Bucket Join

目录(?)[-]1Hive 分区表11 实现细节12 语法2Hive 桶1 创建带桶的 table 2 强制多个 reduce 进行输出3 往表中插入数据4 查看表的结构5 读取数据看每一个文件的数据6 对桶中的数据进行采样7 查询一半返回的桶数3举个完整的小例子1建student student1 表2设置环境变量3插入数据4查看文件目录5查看sampli

2017-03-30 13:39:45 737

转载数据仓库分层之辩

--转自：http://blog.itpub.net/post/14877/198599数据仓库的分层可以算是数据仓库架构的子话题。在前段时间参与的一次讨论中，笔者发现其中争论的焦点集中在每一层的作用、特点、是否有必要存在等问题。其中，大家虽然一致提到某些相关概念，但各方的理解却并非完全一致。例如对于ODS是什么、维度建模是什么等问题的解读，都是如此。不妨想想看：数据从分散而异构的数据

2017-03-16 16:44:59 1838 1

转载 Greenplum或DeepGreen数据库查看表倾斜的方法总结

http://blog.csdn.net/jiangshouzhuang/article/details/51792580上次有个朋友咨询我一个GP数据倾斜的问题，他说查看gp_toolkit.gp_skew_coefficients表时花费了20-30分钟左右才出来结果，后来指导他分析原因并给出其他方案来查看数据倾斜。目前他使用的版本是最新的版本为：

2017-01-20 15:25:26 1511

转载基于Hadoop的数据仓库Hive 学习指南

转载http://blog.csdn.net/achuo/article/details/51332214本指南介绍了Hive，并详细指引读者安装Hive。前面第几章学习指南已经指导大家安装Linux操作系统，并安装配置了Hadoop，但是这只表明我们已经安装好了Hadoop分布式文件系统，而Hive需要另外下载安装，本指南就是详细指导大家安装并配置Hive，完成后大家可以结

2017-01-10 16:56:53 703

转载 Hive数据倾斜总结

倾斜的原因：　　使map的输出数据更均匀的分布到reduce中去，是我们的最终目标。由于Hash算法的局限性，按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。解决思路:　　Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的分配到各个reduce中，就是解决

2016-12-29 11:07:56 599

转载 Hive分区表实战

1. Hive分区表Partition和Bucket，为了提升查询效率，前者是粗粒度的划分，后者是细粒度的划分。建表语句中使用partitioned by指定分区字段分区表有静态分区和动态分区两种。若分区的值是确定的，那么称为静态分区字段，反之，若分区的值是非确定的，那么称之为动态分区字段。默认是采用静态分区。2. 静态分区应用场景1每天有很多不同的商店各自会产生成

2016-12-29 10:50:32 1461

转载 hive-数据倾斜解决详解

hive在跑数据时经常会出现数据倾斜的情况，使的作业经常reduce完成在99%后一直卡住，最后的１%花了几个小时都没跑完，这种情况就很可能是数据倾斜的原因，解决方法要根据具体情况来选择具体的方案１、join的key值发生倾斜，key值包含很多空值或是异常值这种情况可以对异常值赋一个随机值来分散key如：selectuserid , name fromus

2016-12-29 10:48:27 696

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2016-12-29 10:47:06 360

转载 GREENPLUM简介

原帖：http://www.itpub.net/thread-1409964-1-1.html什么是GREENPLUM？对于很多IT人来说GREENPLUM是个陌生的名字。简单的说它就是一个与ORACLE, DB2一样面向对象的关系型数据库。我们通过标准的SQL可以对GP中的数据进行访问存取。GREENPLUM与其它普通的关系型数据库的区别？本质上讲GREENPLUM是一个

2016-06-16 10:14:00 529

转载 Kylin 大数据时代的OLAP利器

Olap简介OLAP的历史与基本概念Olap全称为在线联机分析应用，是一种对于多维数据分析查询的解决方案。典型的Olap应用场景包括销售、市场、管理等商务报表，预算决算，经济报表等等。最早的Olap查询工具是发布于1970年的Express，然而完整的Olap概念是在1993年由关系数据库之父 Edgar F.Codd 提出，伴随而来的是著名的“twelve laws of onli

2015-12-09 17:29:22 8886

转载 O2O中客户主数据、数据仓库和大数据

在O2O项目中强调电子化和数字化，因此数据是个很关键的基础工作。而围绕数据，那么经常提到的客户主数据和数据仓库、大数据是什么关系呢？今天我们简单来聊聊，帮助大家理顺一下思路。O2O强调的是客户体验，所有的流程和场景都离不开人，都是以人为本。所以，O2O项目中，对人的数据非常关注，尤其是用户的主数据模型的设计，以及对应主数据模型的数据采集、用户ID的统一等等，而基于主数据模型进行ID统一和主

2015-11-27 10:15:06 2094

转载 Oracle BIEE (Business Intelligence) 11g 11.1.1.6.0 学习 _ 创建多维钻取分析

我们创建了一个基于部门号的工资分类汇总。这里就引出了一个概念：维度　　专业的解释大家自行百度，这里就不班门弄斧了。从数据的使用角度看，维度可以简单的理解成“数据分类汇总的一种依据”。　　按“部门号(DEPTNO)”对“工资(SAL)”进行分类汇总，“DEPTNO"就是一种维度；按“工作岗位(JOB)”对“工资”进行分类汇总，“JOB”就是另一种维度；　　维度之间也可以有层次关系，比如

2015-09-29 22:55:02 1266

转载 Oracle BIEE EVALUATE系列使用数据库函数

Oracle BIEE11中提供了EVALUATE这个函数，扩展了可以使用oracle函数的功能. 以前看过晃晃悠悠写的EVALUATE的用法。我想补充另外用法。 EVALUATE系列不只有BIEE Admin tool 或者answer中提到的EVALUATE 和 EVALUATE_AGGR两种函数事实上还有另外的两个 EVALUATE: EVAL

2015-09-15 13:35:04 2806

转载 Hive查询进阶

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的，要生成这种整体有序的结果，就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序，你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理，则你

2015-08-18 10:34:05 446

转载 hive部署

安装环境: 机器只需要安装一台机器操作系统:Ubuntu 11.04 64操作系统 hadoop:版本是1.0.2,安装在/usr/local/hadoop sun jdk:版本是1.6.0_31 64bit,安装在/usr/local/jdk hive:版本是0.8.1,安装在/usr/local/hive安装

2015-08-17 15:55:03 459

转载利用sqoop 将 hive/hdfs数据导入 Oracle中

首先我们要安装好sqoop笔者我用的是sqoop1其次我们需要ojdbc6.jar 这个jar 包下载地址如下：http://www.oracle.com/technetwork/database/enterprise-edition/jdbc-112010-090769.html将解压的包复制到sqoop安装目录下的lib 目录中最后执行我们的导入命令即可?View

2015-08-12 16:10:10 595

转载 hive中的NULL分析

Hive中有种假NULL，它看起来和NULL一摸一样，但是实际却不是NULL。空值NULL在底层默认是用'\N'来存储的，Hive中'\'是转义字符，需要对'\'进行一次转义，所以变成'\\N'。如果实际想存储'\N'，那么实际查询出来的也是NULL而不是'\N'。修改默认的NULL表示：alter table test SET SERDEPROPERTIES('serializati

2015-08-12 10:17:04 527

翻译 hive增强的聚集，魔方，分组和汇总

本文档介绍了增强聚集功能，为GROUP BY的SELECT语句子句。GROUPING SETS子句Grouping_ID功能多维数据集和汇总hive.new.job.grouping.set.cardinality【版本】分组集，CUBE和汇总运算符和函数GROUPING__ID分别加入hive0.10.0。见HIVE-2397，HIVE-3433，HIVE-3471，

2015-08-11 15:34:52 1308

翻译 hive Group By 语法

groupByClause: GROUP BY groupByExpression (, groupByExpression)*groupByExpression: expressiongroupByQuery: SELECT expression (, expression)* FROM src groupByClause? 简单例子为了计算表的行数:

2015-08-08 11:44:22 1188

原创 linux shell 打印信息

本文介绍两种 Linux Shell 在终端打印信息的方式：1， echo ：echo 共有 3 种输出方式:1.1 直接在 echo 后面跟要输出的信息：echo "----------- echo without quotes ------------------------------"echo Hello world ! ; Nice

2015-08-07 15:19:18 1372

翻译 Hive JOIN使用详解

Hive是基于Hadoop平台的，它提供了类似SQL一样的查询语言HQL。有了Hive，如果使用过SQL语言，并且不理解Hadoop MapReduce运行原理，也就无法通过编程来实现MR，但是你仍然可以很容易地编写出特定查询分析的HQL语句，通过使用类似SQL的语法，将HQL查询语句提交Hive系统执行查询分析，最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQ

2015-08-06 16:06:56 508

翻译大数据时代的技术hive：hive介绍

首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性：　　1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计

2015-08-06 14:03:46 343

原创为了IT，加强身体锻炼之【双盘腿打坐的好处】

方法：先单盘，这时候上面的腿会翘的很高。然后用双手压这条腿的膝盖，慢慢向下压，直到压到贴住下面的腿。这就是第一步要达到的标准。对于初练的人，这已经是个很难的过程了。基本上，需要至少一个月，才能压平。这里有一个关键，就是要象揉面一样，一下一下的压，而不是一下压到平。压到平了，也不需要一直压在那里，而是要抬起来让它恢复，再压下去。累了疼了，就换腿。初压时，可以每压一会就休息5到10分钟，

2015-08-04 16:25:56 2334 1

翻译非事实型事实表

在维度建模的数据仓库中，有一种事实表叫Factless Fact Table，中文一般翻译为“非事实型事实表”。在事实表中，通常会保存十个左右的维度外键和多个度量事实，度量事实是事实表的关键所在。在非事实型事实表中没有这些度量事实，只有多个维度外键。非事实型事实表通常用来跟踪一些事件或者说明某些活动的范围。下面举例来进行说明。第一类非事实型事实表是用来跟踪事件的事实表。例如：学生注册事件，

2015-08-04 15:55:36 1593

翻译维度建模的基本概念及过程

本文首先介绍维度模型中的维度表和事实表这2个基本构成要素的基础知识；其次，介绍设计维度模型的4个基本步骤；再次，围绕某银行为实现业务价值链数据集成的需要，介绍多维体系结构中的3个关键性概念：数据仓库总线结构、一致性维度、一致性事实。

2015-08-03 15:40:32 2882

Rainmt_Tank的博客