大数据hive离线开发实战第二章笔记

qq_31336073

已于 2023-10-26 09:25:22 修改

阅读量54

点赞数

文章标签：大数据 hive 笔记

于 2023-10-25 15:55:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31336073/article/details/134036806

版权

1.hive简介

hive数据仓库底层的存储，依赖的是Hadoop平台的分布式文件系统（HDFS），而不是关系型数据

库；Hive数据仓库的底层计算处理数据依赖的是Hadoop平台的分布式计算框架MapReduce。

hive采用HQL查询语言对这些还练数据进行自动化的管理和计算，使得操作Hive就像操作型关系数据库一样。我们可以把Hive中海量结构化数据的组织看成一个个表，而实际上这些数据以分布式存储在Hadoop平台的HDFS分布式文件系统。Hive对HQL语句进行解析和转换，最终生成一系列基于Hadoop平台的map/reduce任务，通过执行这些任务完成数据的处理。

2.Hive设计特性

Hive不适合做低延时的数据访问

hive是构建在Hadoop平台之上的，其数据存储依赖于HDFS，数据计算依赖于MapReduce，所以Hive也可以说是构建在静态批处理的Hadoop之上。批处理的时延本身就很高，所以对于数据像数据库那种低时延的数据访问需求，Hive是不适合的。因此，数据仓库数据静态批处理才是Hive的强项，例如海量数据迁移，海量数据过滤，海量数据清洗，海量数据挖掘等。Habse是实时计算领域的，适合低时延业务场景。

Hive可以自由扩展

Hive具有很强的延展性

hive里有很多的内置函数，并且开发人员也可以通过Java接口，编写特殊的函数

Hive具有良好的容错性

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据hive离线开发实战第二章笔记

hive数据仓库底层的存储，依赖的是Hadoop平台的分布式文件系统（HDFS），而不是关系型数据库；Hive数据仓库的底层计算处理数据依赖的是Hadoop平台的分布式计算框架MapReduce。hive采用HQL查询语言对这些还练数据进行自动化的管理和计算，使得操作Hive就像操作型关系数据库一样。我们可以把Hive中海量结构化数据的组织看成一个个表，而实际上这些数据以分布式存储在Hadoop平台的HDFS分布式文件系统。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。