Hive的特点、体系结构及工作流程

最新推荐文章于 2024-06-17 20:53:21 发布

答案798

最新推荐文章于 2024-06-17 20:53:21 发布

阅读量680

点赞数 1

分类专栏：大数据文章标签： Hive结构 Hive工作流程 Hive特点

本文链接：https://blog.csdn.net/weixin_43519014/article/details/85125455

版权

Hive是一款针对海量数据进行高效查询和分析的工具，采用类SQL的HiveQL语言，具备高性能、高扩展性和容错性。其体系结构包括用户接口、元数据存储、解释器、优化器和执行器。工作流程涉及HQL的编译、元数据检索、MapReduce任务执行以及结果获取。Hive与Hadoop生态完全兼容，支持多种数据源和格式。

摘要由CSDN通过智能技术生成

Hive的特点

针对海量数据的高性能查询和分析
由于hive的查询是基于MapReduce框架实现有，而MapReduce本身就是针对海量数据的高性能处理而设计的，所以hive天然就能高效的处理海量数据。
与此同时hive针对HiveQL到MapReduce的翻译进行了大量的优化，从而保证了生的MapReduce任务高效，在实际应用中，hive可以高效的对TB甚至PB级的数据进行处理。
类sql的查询语言
HiveQL和SQL语法十分类似，所以一个熟悉SQL语法的用户基本上不需要培训就能很容易的使用Hive进行很复杂的数据查询业务。
HiveQL灵活的可扩展性（Extendibility）
除了Hive自身提供的功能，用户还可以自定义使用的数据类型，也可以使用其它语言自定义Mapper和Reduce脚本，还可以自定义函数（普通、聚集函数）等。这就赋予了HiveQL极大的可扩展性，用户可以利用这种可扩展性实现复杂的查询。
高扩展性（Scalability)和容错性
Hive本身并没有执行机制，用户查询的执行是通过MapReduce框架现实的，由于MapReduce框架本身具有高可扩展性（计算能力随Hadoop集群中机器的数量增加而线性增加）和高容错性的特点，所以Hive也相应具有这些特点。
与Hadoop其它产品完全兼容
Hive自身并不存储用户数据，而是通过接口访问用户数据，这就使的Hive支持各种数据源和数据格式，例如它支持处理HDFS上的各种文件格式（TextFile、Sequence

最低0.47元/天解锁文章

答案798

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hive的特点、体系结构及工作流程

Hive体系结构图用户接口主要有三个：CLI，JDBC 和 WUI1.CLI，最常用的模式。实际上在hive 命令行下操作时，就是利用CLI用户接口。2.JDBC，通过java代码操作，需要启动hiveserver，然后连接操作。MetastoreHive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等）...
复制链接

扫一扫

专栏目录