大数据之搭建HIVE数据仓库分析系统(Hadoop第四篇)

本文详细介绍了如何搭建基于Hadoop的HIVE数据仓库分析系统,包括HIVE的介绍、下载、解压、配置环境变量、连接Mysql作为元数据库以及启动和使用HIVE命令。HIVE是用于分析存储在Hadoop中的大规模数据集的工具,适用于大数据批处理作业。文章通过实例展示了创建表、写入数据以及查询操作,适合大数据学习者参考。
摘要由CSDN通过智能技术生成

前言:

前面的文章介绍了Hadoop的HDFS,YARN,SSH设置,本篇将承接上面的配置,继续介绍Hadoop相关的HIVE工具,本篇将从HIVE的介绍,下载,安装,启动,测试等一连串进行截图讲解,本篇采用Mysql做元数据测试,希望大家喜欢。

大数据之搭建HIVE数据仓库分析系统(Hadoop第四篇)

 

一、HIVE简介

大数据之搭建HIVE数据仓库分析系统(Hadoop第四篇)

 

hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称Hive SQL,使不熟悉mapreduce的用户可以很方便地利用SQL语言‘查询、汇总和分析数据。而mapreduce开发人员可以把自己写的mapper和reducer作为插件来支持hive做更复杂的数据分析。它与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。它还提供了一系列的1:具进行数据提取转化加载,用来存储、查询和分析存储在Hadoop中的大规模数据集,并支持UDF(User-Defined Function)、UDAF(User-Defnes AggregateFunction)和USTF(User-Defined Table-Generating Function),也可以实现对map和reduce函数的定制,为数据操作提供了良好的伸缩性和可扩展性

大数据之搭建HIVE数据仓库分析系统(Hadoop第四篇)

 

1.2、适用场景

hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。

因此,hive 并不适合那些需要低延迟的应用,例如,联机事务处理(OLTP)。hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值