【Hadoop学习笔记】(二)——Hive的原理及使用

一、Hive概述

Hive是一个在Hadoop中用来处理结构化数据数据仓库基础工具。它架构在Hadoop之上,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

Hive数据仓库工具能为HDFS上的数据提供类似SQL的查询语言(HiveQL),并将SQL语句转变成MapReduce任务来执行。Hive 明显降低了 Hadoop 的使用门槛,任何熟悉 SQL 的用户都可以使用 Hive。

Hive 经常用于业务和数据分析,并对存储在 HDFS 上的数据执行特殊查询。

二、Hive基本使用

Hive 的使用通常分为以下三个步骤:

  1. 创建表,定义表的各个字段
  2. 把数据导入已创建的表中
  3. 针对上表执行 HiveQL 查询
1.创建表

创建表的语法与 SQL 基本一致

CREATE TABLE ufodata( 
sighted string,
reported string,
sighting_location string)
ROW FORMAT DELIMITED
FIFLDS TERMINATED BY '\t';

这里要注意,由于 Hive 通常从 HDFS 上的文件导入数据,因此要注意文件格式的匹配。
ROW FORMAT DELIMITED 告诉 Hive 每行数据包含多个有界字段,
FIFLDS TERMINATED BY 指定了文件的分隔符

2. 导入数据
  • 从 HDFS 上导入数据:如果使用的文件已经在 HDFS 上,可以使用 INPATH 指定源文件位置

如果传给LOAD 的是 HDFS 上的数据路径,那么在导入数据后会删除原始文件
可以使用 LOCAL INPATH 指定位于本地文件系统上的源文件

LOAD DATA INPATH '/tmp/ufo.tsv' OVERWRITE INTO TABLE ufodata;

注意,OVERWRITE 会在导入数据前删除表中原有数据,还会把存放表数据的目录清空

  • 基于现有文件创建表:可以导入 Hive 仓库目录之外路径的数据
CREATE EXTERNAL TABLE states(abbreviation string, full_name string)
ROW FORMAT DELIMITED
FIFLDS TERMINATED BY '\t'
LOCATION '/tmp/states';

EXTERNAL 表明该表存在于 Hive 控制之外的位置
LOCATION 指明了源文件或源目录的位置
使用该方式创建表,不会删除原始数据文件,并且在创建表的同时就会把数据插入表中。

  • 数据导入原理:Hive 使用上述方式导入数据时,并没有实际把输入数据插入表中各行,而是把数据文件拷入工作路径,以源数据为基础创建了一批元数据,后续进行 HiveSQL查询时,转换成的 MapReduce 作业会使用这些元数据去查询实际的数据
3. 其他功能

HiveSQL 还支持类似于SQL的很多特性,如:

  • 视图
  • 导出查询结果:
// 将查询结果导出到 /tmp/out 目录
INSERT OVERWRITE DIRECTORY ‘/tmp/outSELECT reported, shape, state
FROM usa_sightings
WHERE state = 'XXX';
  • 分区:将表按照虚拟列的值进行分区操作。通常用于超大的数据量,最常用的分区策略是使用日期作为分区列
CREATE TABLE partufo( 
sighted string,
reported string,
sighting_location string)
PARTITIONED BY (year string)
ROW FORMAT DELIMITED
FIFLDS TERMINATED BY '\t';

指定分区列后,会自动在表结构中自动加入 year 这一字段
后续导入数据时,会自动按照 year 列的值对表进行分区。如果后续使用 HiveSQL 引用某个特定分区,Hive 会执行一次意义非凡的优化——只会处理在相应分区路径下的数据

  • 分桶:Hive 还可以使用分桶进一步将数据行聚集到桶中,通过对 CLUSTER BY 指定列使用哈希函数实现;还可以使用 SORT BY 对桶中的数据进行排序。 在数据集非常大时,使用分桶可以显著缩短查询时间
  • 自定义函数
4. Hive 和 Pig 的对比

和 Hive 一样,Pig 也避免了直接编写 MapReduce 代码,但是两种方法的抽象方式不同。

Hive 提供类似 SQL 语言的接口,使用方便,只定义执行的操作,而不管如何实现这些操作
Pig 则使用 Pig Latin 语言定义数据流流水线,可以对作业运行方式进行更细粒度的控制。

三、Hive 原理

1. Hive 架构

在这里插入图片描述
包含:

  • 用户界面、接口
  • 元存储:Hive选择各自的数据库服务器,用以储存表,数据库,列模式或元数据表,它们的数据类型和HDFS映射
  • HiveQL处理引擎: HiveQL的Metastore模式信息查询类似于SQL的查询上。这是传统的方式进行MapReduce程序的替代品之一。
  • 执行引擎
  • HDFS 或 HBASE
2. Hive 工作原理

在这里插入图片描述

  1. Hive接口,如命令行或Web UI发送查询驱动程序(任何数据库驱动程序,如JDBC,ODBC等)来执行。
  2. 在驱动程序帮助下查询编译器,分析查询检查语法和查询计划或查询的要求。
  3. 编译器发送元数据请求到Metastore(任何数据库)
  4. Metastore发送元数据,以编译器的响应。
  5. 编译器检查要求,并重新发送计划给驱动程序。到此为止,查询解析和编译完成。
  6. 驱动程序发送执行计划到执行引擎
  7. 在内部,执行作业的过程是一个MapReduce工作。执行引擎发送作业给JobTracker至NameNode,并把它分配作业到TaskTracker至DataNode
  8. 与此同时,在执行时,执行引擎可以通过Metastore执行元数据操作。
  9. 执行引擎接收来自数据节点的结果。
  10. 执行引擎发送这些结果值给驱动程序。
  11. 驱动程序将结果发送给Hive接口。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop是一个开源的分布式计算框架,可用于大数据的存储和处理。它采用了分布式文件系统(HDFS)和分布式计算框架(MapReduce),能够将大数据分割成小的数据块,并在集群中的多台计算机上并行处理这些数据块。 HDFS是Hadoop的分布式文件系统,它将大文件切分为多个数据块,并将这些数据块存储在集群中的多个计算机上。HDFS使用主从架构,其中NameNode负责管理文件系统的元数据,而多个DataNode负责实际存储数据。HDFS具有高容错性,能够自动复制数据块以保证数据的可靠性。 MapReduce是Hadoop的分布式计算框架,它通过将计算任务划分为多个Map和Reduce阶段来进行并行计算。Map阶段将输入数据切分为多个独立的小任务,并在集群中的多个计算机上并行执行。Reduce阶段将Map阶段的输出合并并进行聚合计算。MapReduce具有自动并行化、容错性和可扩展性等优点,能够高效地处理大规模数据集。 在学习Hadoop时,首先要了解Hadoop的核心组件,包括HDFS和MapReduce。然后,需要学习Hadoop的架构和工作原理,理解Hadoop如何实现分布式存储和计算。接下来,需要学习Hadoop的安装和配置,包括在单机和集群环境下的安装和配置过程。此外,还需要学习Hadoop的命令行工具和管理工具,以及Hadoop的API和编程模型。 在实际使用Hadoop时,需要掌握Hadoop的常用操作和管理技巧,如如何上传和下载文件、如何执行MapReduce作业、如何监控和管理Hadoop集群等。同时,需要学习Hadoop的优化技术和调优方法,以提高Hadoop集群的性能和效率。 总之,对于Hadoop学习,除了理解其基础知识和工作原理外,还需要熟悉其常用操作和管理技巧,以及灵活运用Hadoop来解决实际的大数据问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值