大数据hive离线开发实战第二章笔记

1.hive简介

hive数据仓库底层的存储,依赖的是Hadoop平台的分布式文件系统(HDFS),而不是关系型数据

库;Hive数据仓库的底层计算处理数据依赖的是Hadoop平台的分布式计算框架MapReduce。

hive采用HQL查询语言对这些还练数据进行自动化的管理和计算,使得操作Hive就像操作型关系数据库一样。我们可以把Hive中海量结构化数据的组织看成一个个表,而实际上这些数据以分布式存储在Hadoop平台的HDFS分布式文件系统。Hive对HQL语句进行解析和转换,最终生成一系列基于Hadoop平台的map/reduce任务,通过执行这些任务完成数据的处理。

2.Hive设计特性

Hive不适合做低延时的数据访问

hive是构建在Hadoop平台之上的,其数据存储依赖于HDFS,数据计算依赖于MapReduce,所以Hive也可以说是构建在静态批处理的Hadoop之上。批处理的时延本身就很高,所以对于数据像数据库那种低时延的数据访问需求,Hive是不适合的。因此,数据仓库数据静态批处理才是Hive的强项,例如海量数据迁移,海量数据过滤,海量数据清洗,海量数据挖掘等。Habse是实时计算领域的,适合低时延业务场景。

Hive可以自由扩展

Hive具有很强的延展性

hive里有很多的内置函数,并且开发人员也可以通过Java接口,编写特殊的函数

Hive具有良好的容错性

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值