tony的专栏

好好学习,多多益善

Hive安装配置

普及:什么是HIVE Hive 是建立在 Hadoop  上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop  中的大规模数据的机制。Hive 定义了简单的类 SQL  查询语言,称为 QL ,它允许熟悉 S...

2016-05-30 14:46:07

阅读数 2202

评论数 2

Hadoop Hive安装,配置mysql元数据库

由于Hive依赖于Hadoop,安装Hive之前必须确认Hadoop可用,关于Hadoop的安装可以参考集群分布式 Hadoop安装详细步骤,这里不再叙述。 1.下载Hive安装包    下载地址为:http://www.apache.org/dyn/closer.cgi/hive(或...

2016-05-30 14:43:17

阅读数 438

评论数 0

基于Hadoop的数据仓库Hive 学习指南

【版权声明:本指南为厦门大学林子雨开设的《大数据技术原理与应用》课程新增配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】 本指南介绍了Hive,并详细指引读者安装Hive。 前面第几章学习指南已经指导大家安装Linux操作系统,并安装配置了Hadoop,但是这只表明我们已经安装好了Ha...

2016-05-12 19:43:36

阅读数 7526

评论数 0

[一起学Hive]之二十-自定义HiveServer2的用户安全认证

HiveServer2提供了JDBC链接操作Hive的功能,非常实用,但如果在使用HiveServer2时候,不注意安全控制,将非常危险,因为任何人都可以作为超级用户来操作Hive及HDFS数据。 比如:在配置HiveServer2的时候,hive.server2.authentication=...

2016-05-06 10:46:49

阅读数 3088

评论数 0

[一起学Hive]之十九-使用Hive API分析HQL的执行计划、Job数量和表的血缘关系

本文介绍使用Hive的API获取一条HQL的最终执行计划,从而获取这条HQL的Job数量,另外,介绍使用API分析一条HQL中所包含的输入表和输出表。这些信息在做元数据管理和Hive表的血缘分析时候很有用。 Hive在执行一条HQL的时候,会经过以下步骤: 语法解析:Antlr定义SQ...

2016-05-06 10:46:07

阅读数 789

评论数 0

[一起学Hive]之十八-Hive UDF开发

Hive中,除了提供丰富的内置函数(见[一起学Hive]之二–Hive函数大全-完整版)之外,还允许用户使用Java开发自定义的UDF函数。 开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hive.ql.exec.UDF,另一个是继承org.apache.ha...

2016-05-06 10:45:25

阅读数 315

评论数 0

[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling

在Hive中提供了数据取样(SAMPLING)的功能,用来从Hive表中根据一定的规则进行数据取样,Hive中的数据取样支持分桶表取样和数据块取样。 16.1 数据块取样(Block Sampling) block_sample: TABLESAMPLE (n PERCENT) ...

2016-05-06 10:43:19

阅读数 685

评论数 0

[一起学Hive]之十六-Hive的WEB页面接口-HWI

Hive提供给用户的交互接口一般有三种:Hive命令行(Hive Command Line)、JDBC/ODBC以及Hive WEB Interface(HWI)。对于开发者来说,最常用的是Hive命令行。如果是将Hive开放给数据分析或数据运营人员做即席查询,那么使用Hive WEB页面接口(H...

2016-05-06 10:42:30

阅读数 1005

评论数 0

[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)

类似于Oracle的分析表,Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。 表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等; 14.1 新表的统计信息 对于一个新创建的表,默...

2016-05-06 10:40:38

阅读数 1695

评论数 0

[一起学Hive]之十四-Hive的元数据表结构详解

之前在 “[一起学Hive]之一–Hive概述,Hive是什么”中介绍过,Hive自己维护了一套元数据,用户通过HQL查询时候,Hive首先需要结合元数据,将HQL翻译成MapReduce去执行。 本文介绍一下Hive元数据中重要的一些表结构及用途,以Hive0.13为例。 文章最后面...

2016-05-06 10:39:47

阅读数 1117

评论数 0

[一起学Hive]之十三-Hive整合HBase,操作HBase表

十二、Hive整合HBase,操作HBase表 HBase是被设计用来做k-v查询的,但有时候,也会遇到基于HBase表的复杂统计,写MR很不方便。Hive考虑到了这点,提供了操作HBase表的接口。 关于Hive操作HBase表的原理,请参考我之前的博文:          h...

2016-05-06 10:38:56

阅读数 928

评论数 1

[一起学Hive]之十二-Hive SQL的优化

十一、Hive SQL的优化   本章只是从HQL层面介绍一下,日常开发HQL中需要注意的一些优化点,不涉及Hadoop层面的参数、配置等优化。 其中大部分是我之前发过的博客文章,这里整理了下。 11.1 使用分区剪裁、列剪裁 在SELECT中,只拿需要的列,如果有,...

2016-05-06 10:38:08

阅读数 278

评论数 0

[一起学Hive]之十一-Hive中Join的类型和用法

Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEFT SEMI JOIN和CROSS JOIN,但这两种JOIN类型也可以用前面的代替。 注意:Hive中Join的关联键必须在ON ()中指定,不能在Where中指定,否则就会先做笛卡尔积,再过滤。 数据...

2016-05-06 10:37:28

阅读数 532

评论数 0

[一起学Hive]之十-Hive中Join的原理和机制

九、Hive中Join的原理和机制 笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。 9.1 Hive Common Join 如果不指定MapJoi...

2016-05-06 10:36:35

阅读数 318

评论数 0

[一起学Hive]之九-Hive的查询语句SELECT

八、Hive的查询语句SELECT 在所有的数据库系统中,SELECT语句是使用最多,也最复杂的一块,Hive中的查询语句SELECT支持的语法当然也比较复杂,本文只能尽力去介绍。 8.1 基础查询语法 Hive中的SELECT基础语法和标准SQL语法基本一致,支持WHERE、D...

2016-05-06 10:35:50

阅读数 2217

评论数 0

[一起学Hive]之八-使用Hive命令行

Hive提供的几种用户交互接口中,最常用的就是命令行接口。本文简单介绍一下Hive命令行接口(Hive Command Line)及Hive交互Shell(Hive Interactive Shell)的一些使用。 七、使用Hive命令行 7.1 Hive Command Line ...

2016-05-06 10:35:05

阅读数 671

评论数 0

[一起学Hive]之七-向Hive表中加载数据

在Hive中建好表之后,需要将数据加载进来,以便做后续查询分析,本文介绍向Hive表中加载数据的几种方式。 6.1 建表时候直接指定 如果你的数据已经在HDFS上存在,已经为结构化数据,并且数据所在的HDFS路径不需要维护,那么可以直接在建表的时候使用location指定数据所在的HD...

2016-05-06 10:34:33

阅读数 659

评论数 0

[一起学Hive]之六-Hive的动态分区

前面文章介绍了Hive中是支持分区的。 关系型数据库(如Oracle)中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要进行相应的配置。...

2016-05-06 10:34:00

阅读数 197

评论数 0

[一起学Hive]之五-Hive的视图和分区

同关系型数据库一样,Hive中也支持视图(View)和分区(Partition),但与关系型数据库中的有所区别,本文简单介绍Hive中视图和分区的示例。 在真实业务场景下,视图的应用比较少,分区使用的非常多,因此建议对分区这块多花的时间来了解。   四、Hive的视图和分区 ...

2016-05-06 10:32:15

阅读数 414

评论数 0

[一起学Hive]之四-Hive的安装配置

其实Hive的安装配置应该放在第二章来介绍,晚了些,希望对Hive初学者有用。 三、Hive的安装配置 3.1 环境需求 Hadoop ClientMysql 3.2 下载并解压Hive0.13.1安装包 下载地址:http://archive.apache.org/...

2016-05-06 10:31:08

阅读数 342

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭