Hive介绍

最新推荐文章于 2024-10-09 13:52:28 发布

木良Duncan

最新推荐文章于 2024-10-09 13:52:28 发布

阅读量270

点赞数

分类专栏： Hive 文章标签： hive 大数据 hadoop

本文链接：https://blog.csdn.net/qq_45275284/article/details/129763244

版权

Hive 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Hive是一个将结构化数据文件映射为数据库表并提供类SQL查询功能的工具，主要用于海量数据的离线分析。它降低了学习MapReduce的成本，提高了开发效率，但执行延迟较高，适合不强求实时性的场景。Hive支持自定义函数和扩展，但其HQL表达能力有限，效率低于优化过的数据库。数据仓库特性决定了Hive不支持频繁的数据改写。内部表和外部表的主要区别在于数据管理与删除操作时对HDFS的影响。

摘要由CSDN通过智能技术生成

Hive的作用

Hive可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。
其本质是将SQL转换为MapReduce/Spark的任务进行运算，底层由HDFS来提供数据的存储，可以理解为将SQL转换为MapReduce/Spark任务的工具。
hive主要用于海量数据的离线数据分析.

为什么使用hive:
1.学习MapReduce成本较高，降低学习成本
2.提高开发能力，避免书写MapReduce，减少学习成本。

hive特点：
1.可扩展：Hive可以自由扩展集群的规模，一般情况下不需要重启服务。
2.延展性：Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
3.容错：良好的容错性，节点出现问题SQL仍可完成执行。

Hive的优缺点

优点：
1.操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）
2.避免写MapReduce代码，减少开发人员的学习成本
3.Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合
4.Hive优势在于处理大数据，对小数据没有优势，因为Hive的执行延迟比较高
5.Hive支持自定义函数，用户可以更据自己的需求来实现自己的函数。

缺点：
1.Hive的HQL表达能力有限（迭代算法无法表达；数据挖掘方面不擅长）
2.Hive效率低（hive自动生成MapReduce作业，不够智能化；hive调优比较困难，粒度较粗）

Hive与数据库的区别

1.数据更新：Hive是针对数据仓库设计的，数据仓库读多写少，所以Hive不建议对数据进行改写，所有数据都是加载后确定好的；数据库需要经常修改。
2.执行延迟：Hive在查询数据的时候吗，没有索引，需要扫描整个表。因此延迟较高。另外hive底层使用mapreduce,maprdeuce的延迟本省较高。
3.数据规模：hive支持大规模集群并行计算；数据库支持数据规模较小。

Hive内部表和外部表的区别

被external修饰的位外部表，未被修饰的是内部表(管理表)
区别：
1.内部表数据由Hive自身管理，外部表数据由HDFS管理
2.内部表的存储位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），外部表数据的存储位置由自己指定（如果没有LOCATION，Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹，并将属于这个表的数据存放在这里）；
3.删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS上的文件并不会被删除。