Hive 笔记

Hive概念

Hive是一个构建在 Hadoop 上的数据仓库框架,是一个 Apache 项目,很多组织把它用作一个通用的、可伸缩的数据处理平台。Hive 一般在工作站上运行。它把 SQL 查询转换为一系列在 Hadoop 集群上运行的作业。Hive 把数据组织为表,通过这种方式存储在 HDFS 上的数据赋予结构。元数据(如表模式)存储在 metastore 数据库中。

优势

Hive 把查询转换为一个作业并执行这个作业,然后将结果打印到控制台。虽然 Hive 和其他数据库有一些细微的差别,例如 Hive 支持的 SQL 结构以及查询中数据的格式等但能够在原始数据上执行 SQL 查询,才能彰显出 Hive 的强大功能。

例如
创建表 records;

CREATE TABLE records(year STRING,temperature INT,quality INT)
ROW FORMAT DELIMITED
  FIELDS TERMINATED BY '\t';

ROW FORMAT : 是 HiveQL 特有的,声明的是数据文件的每一行是由制表符分隔的文本
向 Hive 输入数据

LOAD DATA LOCAL INPATH 'input\ncdc\micro-tab\sample.txt'
OVERWRITE INTO TABLE records; 

LOAD DATA语句中的 OVERWRITE 关键字告诉 Hive 删除表对应目录中已有的所有文件。

Hive与传统数据库相比

Hive 在很多方面和传统数据库类似,但是起初对 HDFS 和 MapReduce 底层的依赖意味着它的体系结构有别于传统数据库,而这些区别又影响着 Hive 所支持的特性。

读时模式 vs 写时模式

读时模式:Hive 在数据的校验并不在加载数据时进行,而在查询中进行
写时模式:数据是在写入数据库时对照模式进行检查

更新、事务和索引

更新、事务和索引是传统数据库最重要的特性。但是,Hive目前没有考虑支持这些特性。
目前 Hive 的索引分成两类,紧凑(compact)索引和位图(bitmap)索引。
紧凑索引存储每个值的 HDFS 块号,位图索引使用压缩的

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值