hive
Rainmt_水战
这个作者很懒,什么都没留下…
展开
-
hive Group By 语法
groupByClause: GROUP BY groupByExpression (, groupByExpression)*groupByExpression: expressiongroupByQuery: SELECT expression (, expression)* FROM src groupByClause? 简单例子为了计算表的行数:翻译 2015-08-08 11:44:22 · 1158 阅读 · 0 评论 -
基于Hadoop的数据仓库Hive 学习指南
转载http://blog.csdn.net/achuo/article/details/51332214本指南介绍了Hive,并详细指引读者安装Hive。 前面第几章学习指南已经指导大家安装Linux操作系统,并安装配置了Hadoop,但是这只表明我们已经安装好了Hadoop分布式文件系统,而Hive需要另外下载安装,本指南就是详细指导大家安装并配置Hive,完成后大家可以结转载 2017-01-10 16:56:53 · 687 阅读 · 0 评论 -
Hive数据倾斜总结
倾斜的原因: 使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。解决思路: Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决转载 2016-12-29 11:07:56 · 597 阅读 · 0 评论 -
Hive分区表实战
1. Hive分区表Partition和Bucket,为了提升查询效率,前者是粗粒度的划分,后者是细粒度的划分。建表语句中使用partitioned by指定分区字段分区表有静态分区和动态分区两种。若分区的值是确定的,那么称为静态分区字段,反之,若分区的值是非确定的,那么称之为动态分区字段。默认是采用静态分区。2. 静态分区应用场景1每天有很多不同的商店各自会产生成转载 2016-12-29 10:50:32 · 1455 阅读 · 0 评论 -
hive-数据倾斜解决详解
hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案1、join的key值发生倾斜,key值包含很多空值或是异常值这种情况可以对异常值赋一个随机值来分散key如:selectuserid , name fromus转载 2016-12-29 10:48:27 · 688 阅读 · 0 评论 -
hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2016-12-29 10:47:06 · 354 阅读 · 0 评论 -
大数据时代的技术hive:hive介绍
首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计翻译 2015-08-06 14:03:46 · 338 阅读 · 0 评论 -
hive部署
安装环境: 机器 只需要安装一台机器 操作系统:Ubuntu 11.04 64操作系统 hadoop:版本是1.0.2,安装在/usr/local/hadoop sun jdk:版本是1.6.0_31 64bit,安装在/usr/local/jdk hive:版本是0.8.1,安装在/usr/local/hive安装转载 2015-08-17 15:55:03 · 456 阅读 · 0 评论 -
Hive查询进阶
通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序,你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理,则你转载 2015-08-18 10:34:05 · 439 阅读 · 0 评论 -
利用sqoop 将 hive/hdfs数据 导入 Oracle中
首先我们要安装好sqoop笔者我用的是sqoop1其次我们需要ojdbc6.jar 这个jar 包下载地址如下:http://www.oracle.com/technetwork/database/enterprise-edition/jdbc-112010-090769.html将解压的包 复制到sqoop安装目录下的lib 目录中最后执行我们的导入命令即可?View转载 2015-08-12 16:10:10 · 592 阅读 · 0 评论 -
hive中的NULL分析
Hive中有种假NULL,它看起来和NULL一摸一样,但是实际却不是NULL。空值NULL在底层默认是用'\N'来存储的,Hive中'\'是转义字符,需要对'\'进行一次转义,所以变成'\\N'。如果实际想存储'\N',那么实际查询出来的也是NULL而不是'\N'。修改默认的NULL表示:alter table test SET SERDEPROPERTIES('serializati转载 2015-08-12 10:17:04 · 516 阅读 · 0 评论 -
hive增强的聚集,魔方,分组和汇总
本文档介绍了增强聚集功能,为GROUP BY的SELECT语句子句。GROUPING SETS子句Grouping_ID功能多维数据集和汇总hive.new.job.grouping.set.cardinality【版本】分组集,CUBE和汇总运算符和函数GROUPING__ID分别加入hive0.10.0。见HIVE-2397,HIVE-3433,HIVE-3471,翻译 2015-08-11 15:34:52 · 1283 阅读 · 0 评论 -
Hive JOIN使用详解
Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hive系统执行查询分析,最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQ翻译 2015-08-06 16:06:56 · 504 阅读 · 0 评论 -
Hive 基础之:分区、桶、Sort Merge Bucket Join
目录(?)[-]1Hive 分区表11 实现细节12 语法2Hive 桶1 创建带桶的 table 2 强制多个 reduce 进行输出3 往表中插入数据4 查看表的结构5 读取数据看每一个文件的数据6 对桶中的数据进行采样7 查询一半返回的桶数3举个完整的小例子1建student student1 表2设置环境变量3插入数据4查看文件目录5查看sampli转载 2017-03-30 13:39:45 · 727 阅读 · 0 评论