Hive应用场景及架构原理

最新推荐文章于 2024-07-28 14:07:27 发布

开发哪些事儿

最新推荐文章于 2024-07-28 14:07:27 发布

阅读量2.1k

点赞数 1

分类专栏： Hive

本文链接：https://blog.csdn.net/pigziprogrammer/article/details/94218076

版权

Hive是基于Hadoop的数据仓库工具，用于对海量数据进行离线分析。其优点包括易上手的HQL、可扩展性和元数据管理。常见应用场景包括日志分析和结构化数据离线分析。Hive的工作原理是将SQL查询转换为MapReduce任务在Hadoop上执行。其架构包括用户接口、元数据存储和解释器、编译器、优化器。Hive支持多种数据类型，包括基本和复杂类型，并提供了类型转化功能。

摘要由CSDN通过智能技术生成

Hive背景介绍

Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。大数据是现在互联网的趋势，而hadoop就是大数据时代里的核心技术，但是hadoop的mapreduce操作专业性太强，所以facebook在这些基础上开发了hive框架，毕竟世界上会sql的人比会java的人多的多，hive可以说是学习hadoop相关技术的一个突破口。

Hive简介

简单的说：hive是基于hadoop的数据仓库。

那么为什么说hive是基于Hadoop的呢？

之所以说hive是构建在Hadoop之上的数据仓库，简单的说是因为：

①数据存储在hdfs上

②数据计算用mapreduce

下面我们来深入分析一下：

Hive是一种建立在Hadoop文件系统上的数据仓库架构，并对存储在HDFS中的数据进行分析和管理；它可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运行，通过自己的 SQL 去查询分析需要的内容，这套 SQL 简称 Hive SQL（HQL），使不熟悉 MapReduce 的用户也能很方便地利用 SQL 语言对数据进行查询、汇总、分析。同时，这个语言也允许熟悉 MapReduce 开发者们开发自定义的mappers和reducers来处理内建的mappers和reducers无法完成的复杂的分析工作。Hive还允许用户编写自己定义的函数UDF，用来在查询中使用。Hive中有3种UDF：User Defined Functions（UDF）、User Defined Aggregation Functions（UDAF）、User Defined Table Generating Functions（UDTF）。也就是说对存储在HDFS中的数据进行分析和管理，我们不想使用手工，我们建立一个工具吧，那么这个工具就可以是hive。