大数据之搭建HIVE数据仓库分析系统（Hadoop第四篇）_mapreduce开发人员可以把自己写的mapper和reducer作为插件来支持hive做更复杂的-CSDN博客

本文详细介绍了如何搭建基于Hadoop的HIVE数据仓库分析系统，包括HIVE的介绍、下载、解压、配置环境变量、连接Mysql作为元数据库以及启动和使用HIVE命令。HIVE是用于分析存储在Hadoop中的大规模数据集的工具，适用于大数据批处理作业。文章通过实例展示了创建表、写入数据以及查询操作，适合大数据学习者参考。

前言：

前面的文章介绍了Hadoop的HDFS，YARN，SSH设置，本篇将承接上面的配置，继续介绍Hadoop相关的HIVE工具，本篇将从HIVE的介绍，下载，安装，启动，测试等一连串进行截图讲解，本篇采用Mysql做元数据测试，希望大家喜欢。

大数据之搭建HIVE数据仓库分析系统（Hadoop第四篇）

一、HIVE简介

大数据之搭建HIVE数据仓库分析系统（Hadoop第四篇）

hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称Hive SQL，使不熟悉mapreduce的用户可以很方便地利用SQL语言‘查询、汇总和分析数据。而mapreduce开发人员可以把自己写的mapper和reducer作为插件来支持hive做更复杂的数据分析。它与关系型数据库的SQL略有不同，但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。它还提供了一系列的1：具进行数据提取转化加载，用来存储、查询和分析存储在Hadoop中的大规模数据集，并支持UDF（User-Defined Function）、UDAF(User-Defnes AggregateFunction)和USTF（User-Defined Table-Generating Function），也可以实现对map和reduce函数的定制，为数据操作提供了良好的伸缩性和可扩展性

大数据之搭建HIVE数据仓库分析系统（Hadoop第四篇）