Hive 1

Hive是一个用于大数据统计分析的SQL工具,源于Facebook,基于Hadoop构建数据仓库。数据存储在HDFS中,元数据存储在MySQL等数据库,作业通过Hive转换为MapReduce任务在Yarn上运行。Hive适用于批处理场景,优点是易用,但存在延迟高的缺点。在Hive建表时,会修改TBLS和TABLE_PARAMS元数据表。
摘要由CSDN通过智能技术生成

简介

hive是使用SQL完成大数据统计分析的工具。

hive是facebook公司开源的工具,用来解决海量的结构化日志的统计问题。

hive是构建在hadoop之上的数据仓库。

        HDFS: hive的 数据是放在HDFS (distributed storge), 元数据(metadata)存在对应的底层关系型数据库,一般是MySQL

MR(计算引擎): hive的作 业(SQL)是通过hive的框架翻译成MR作业

Yarn: hive的 作业是提交到Yarn.上去运行的

hive其实就是一一个客户端,没有集群的概念,提交作业到集群的Yarn.上面去运行(没有感情的提交机器)

SQL ==> Hive ==> MR ==> Yarn

distributed storge

HDFS, AWS S3,各种云OOS COS

这些系统,hive都可以对接,只要有对应的jar包,本地的文件系统(file开头)也可以对接

metadata

统一的元数据管理

元数据:描述数据的数据

Hive适用场景

批处理/离线处理

Hive的优缺点

优点:易上手,比MR使用起来简单多了

缺点:延时性高

作业

1.MPP数据库的概念以及有哪些?

MPP (Massively Parallel Processing),即大规模并行处理。简单来说,MPP是将任

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值