Hive组件相关知识点总结

最新推荐文章于 2024-04-22 10:18:27 发布

易逑实战数据

最新推荐文章于 2024-04-22 10:18:27 发布

阅读量942

点赞数 1

分类专栏：大数据文章标签： hive 数据仓库 big data

本文链接：https://blog.csdn.net/hhfhhf12345678/article/details/125255088

版权

大数据专栏收录该内容

26 篇文章 0 订阅

订阅专栏

文章目录

前言
一、Hive是什么
二、Hive用来做什么
三、Hive的优势是什么
四、为什么用Hive
五、Hive解决了什么问题
总结

前言

在搭建数据仓库时，Hive组件在其中发挥了非常关键的作用，我们知道Hive是一个基于Hadoop的重要数据仓库工具，但具体如何应用则需要我们进一步进行探索。

一、Hive是什么

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析

二、Hive用来做什么

1.把SQL语句转化成mapreduce代码
2.可以对数据进行存储存储使用 HDFS
3.可以对数据进行计算计算使用 MapReduce

三、Hive的优势是什么

a.Hive的优点
(1)简单容易上手：提供了类SQL查询语言HQL
(2)可扩展：为超大数据集设计了计算/扩展能力（MR作为计算引擎，HDFS作为存储系统）
一般情况下不需要重启服务Hive可以自由的扩展集群的规模。
(3)提供统一的元数据管理
(4)延展性：Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数
(5)容错：良好的容错性，节点出现问题SQL仍可完成执行
b.Hive的缺点
(1)hive的HQL表达能力有限
1)迭代式算法无法表达，比如pagerank
2)数据挖掘方面，比如kmeans
(2)hive的效率比较低
1)hive自动生成的mapreduce作业，通常情况下不够智能化
2)hive调优比较困难，粒度较粗
3)hive可控性差

四、为什么用Hive

(1)Hive与传统数据库的比较
在这里插入图片描述
Hive用于海量数据的离线数据分析。Hive具有sql数据库的外表，但应用场景完全不同，Hive只适合用来做批量数据统计分析。
(2)Hive的优势
Hive利用HDFS存储数据，利用MapReduce查询分析数据。因为直接使用Hadoop MapReduce处理数据，会面临人员学习成本太高的问题，而且MapReduce实现复杂查询逻辑开发难度太大。而使用Hive，操作接口采用类SQL语法，提供快速开发的能力的同时还避免了去写MapReduce，从而减少开发人员的学习成本，功能扩展更加方便。

五、Hive解决了什么问题

Hive解决了大数据的查询功能,让不会写MR的人也能使用MR,它的本质就是将HQL转换为MR. 它的底层走的是MR,写MR效率低,而且痛苦,Hive的出现就为JAVAEE的兄弟带来了捷径和福音.

总结

Hive总的来说是一个非常好的数仓建模工具，在数仓分层中起到非常重要的作用。Hive能把数仓的数据转化为一个个数据表，并按照分层理论在各层输出属于自己的数仓表。

易逑实战数据

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive组件相关知识点总结

在搭建数据仓库时，Hive组件在其中发挥了非常关键的作用，我们知道Hive是一个基于Hadoop的重要数据仓库工具，但具体如何应用则需要我们进一步进行探索。hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。...
复制链接

扫一扫