----【Hive】
文章平均质量分 84
Alen_Liu_SZ
这个作者很懒,什么都没留下…
展开
-
【Hive】Hive CLI初探
$HIVE_HOME/bin/hive是一个Shell工具,可以用来以交互式或批量模式运行HIve查询,本篇对其进行学习。一 Hive环境hive> select version(); OK 2.3.3 r8a511e3f79b43d4be41cd231cf5c99e43b248383 Time taken: 11.166 seconds, Fetched: 1 row(s)二 HIve C...原创 2018-06-29 11:21:43 · 3121 阅读 · 0 评论 -
【Hive】Order by、Sort by、Distribute by和Cluster by
1 Order byHive中的Order by语句和其他的SQL中定义的一样,其会对查询结果集执行一个全局排序,即会有一个所有的数据都通过一个reducer进行处理的过程。对于大数据集,这个过程可能会消耗太多的时间来执行。2 Sort by对于使用Order by进行全局排序的操作,Hive增加了一个可供选择的方式,就是Sort by,其只会在每个reducer中对数据进行排序,即执行一个局部排...原创 2018-07-04 16:56:25 · 525 阅读 · 0 评论 -
【Hive】HiveQL实战之分析函数&窗口函数
本篇主要介绍将存储到Mysql的示例数据库Sakila以Sqoop的方式导入到Hive,然后详细讲解Hive的分析函数和窗口函数。一 实战环境1 Hive版本hive> select version(); OK 2.3.3 r8a511e3f79b43d4be41cd231cf5c99e43b248383 Time taken: 0.944 seconds, Fetched: 1 row(s...原创 2018-06-28 16:51:25 · 1274 阅读 · 0 评论 -
【Hive】HiveQL实战之数据抽样Sample
当数据量很大时,需要查找一个数据的子集用于加快数据的分析,这种技术就是抽样技术。Hive中,数据抽样分为以下三种:随机抽样;桶表抽样;块抽样;1 随机抽样1)语法结构使用Rand()和LIMIT关键字得到抽样数据,Distribute和Sort关键字确保数据在mappers和reducers之间高效的随机分布,也可以使用order by rand()实现,但是性能不好。语法:SELECT * FR...原创 2018-07-10 16:54:25 · 3570 阅读 · 0 评论 -
【Hive】HiveQL实战之分析函数&窗口函数(补充)
本篇承接【Hive】HiveQL实战之分析函数&窗口函数并对其进行补充。一 语法结构分析函数的使用常和Over、Partition By、Order By 和窗口说明一起,具体语法如下:Function (arg1,..., argn) OVER ([PARTITION BY <...>] [ORDER BY <....>][<window_clause>...原创 2018-07-10 12:51:15 · 467 阅读 · 0 评论 -
【Hive】Hive分区表详解
本篇主要演示分区表的创建、插入、动态分区等内容。一 实验环境1 Hive环境0: jdbc:hive2://localhost:10000/hive> select version() ver; +--------------------------------------------------+ | ver ...原创 2018-07-02 17:30:28 · 1891 阅读 · 0 评论 -
【Hive】HiveQL实战之操作符和函数
Hive中的操作符合函数,和关系型数据库的类似,本篇主要讲解Hive的一些函数。一 函数分类Hive中的函数可以分为以下几种:数学函数:主要用于数学运算,例如:Randy()和E();集合函数:主要用于查找Size、Keys和复杂类型的值,例如:Size(Array<T>);类型转换函数:主要是Cast和Binary,用于将一种类型转为另一种类型;日期函数:用于执行与日期相关的操作,例...原创 2018-07-09 12:40:26 · 597 阅读 · 0 评论 -
【Hive】Hive安装与配置
本篇主要演示在Linux上基于Hadoop安装Hive。一 安装环境操作系统:Oracle Linux Server release 6.5;Java版本:java-1.7.0-openjdk-1.7.0.45;Hadoop版本:hadoop-2.7.6;Hive版本:hive-2.3.3;MySQL版本:5.7.22;二 安装前准备1 安装Hadoop具体安装过程参考:Hadoop 2.7.6安...原创 2018-06-20 20:41:25 · 1323 阅读 · 0 评论 -
【Hive】HiveQL:数据定义
HiveQL是Hive查询语言,和普遍使用的所有SQL方言一样,它不完全遵守任一种ANSI SQL标准的修订版。Hive不支持行级插入操作、更新操作和删除操作,Hive也不支持事务,Hive增加了在Hadoop背景下的可以提供更高性能的扩展,以及一些个性化的扩展,甚至还增加了一些外部程序。一 Hive中的数据库操作Hive中数据库的概念本质上仅仅是表的一个目录或者命名空间,然而,对于具有很多组和用...原创 2018-06-21 00:16:27 · 1056 阅读 · 0 评论 -
【Hive】HiveQL:数据操作
本篇主要演示Hive的数据操作,包括向表中装载数据、插入数据、创建表以及导出数据。一 向表中装载数据1 语法结构LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]2 示例hive> load data local ...原创 2018-06-21 13:46:29 · 1067 阅读 · 0 评论 -
【Hive】Beeline CLI介绍
Beenline,它其实是HiveServer2的JDBC客户端,基于SQLLine命令行接口。Beeline Shell可以工作在嵌入式模式和远程模式,在嵌入式模式中,它运行一个嵌入式的Hive(类似于Hive CLI),在远程模式中,通过Thrift连接到一个单独的HiveServer2进程,从Hive 0.14开始,当Beeline和HiveServer2一起使用时,它会从HiveServe...原创 2018-06-29 15:48:32 · 2229 阅读 · 0 评论 -
【Hive】数据类型实战
Hive中的数据类型可以分为两种,分别是基本数据类型和复杂数据类型,本篇将通过一个例子来说明:1 数据样本[hadoop@strong ~]$ vim employee Michael|Montreal,Toronto|Male,30|DB:80|Product:Developer^DLead Will|Montreal|Male,35|Perl:85|Product:Lead,Test:Lea...原创 2018-07-06 15:29:12 · 272 阅读 · 0 评论