大数据(九) - Hive

Hive是一个基于Hadoop的数据仓库工具,提供类SQL查询语言HQL,适用于离线数据处理。Hive包括用户接口、元数据存储、驱动器等组件,通过MapReduce进行计算和HDFS存储数据。虽然Hive简化了大数据查询,但其效率较低、HQL表达能力有限且不支持迭代算法。此外,Hive支持分区和桶的概念,以及一些特定的SQL操作,如JOIN和ORDER BY,但不支持UPDATE和非等值JOIN。Hive还允许用户自定义函数来扩展其功能,并有与HBase、Stinger、Shark和Impala等系统的交互和对比。
摘要由CSDN通过智能技术生成
构建在Hadoop之上的 数据仓库,数据计算使用MR,数据存储使用HDFS
        因为数据计算使用mapreduce,因此通常用于进行离线数据处理
Hive 定义了一种类 SQL 查询语言——HQL
        类似SQL,但不完全相同
可认为是一个HQL-->MR的语言翻译器
简单,容易上手

有了Hive,还需要自己写MR程序吗
        Hive的HQL表达的能力有限
                迭代式算法无法表达
                有些复杂运算用HQL不易表达
        Hive 效率较低
                Hive自动生成MapReduce作业,通常不够智能;
                HQL调优困难,粒度较粗
                可控性差

Hive各模块组成
        用户接口
                包括 CLI,JDBC/ODBC,WebUI
        元数据存储(metastore)
                默认存储在自带的数据库derby中,线上使用时一般换为MySQL
        驱动器(Driver)
                解释器、编译器、优化器、执行器
        Hadoop
                用 MapReduce 进行计算,用 HDFS 进行存储
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值