数据存储:大数据运算系统(3)--- MapReduce+SQL


1、MapReduce+SQL系统介绍
MapReduce提供了一个分布式应用编写的平台。但是,这仅仅是一个编程的平台,不适合数据分析师的使用;即使最基础的选择和投影操作,也必须写程序来实现。所以,对SQL的需求由此产生。

2、Hive(蜂巢)
管理和处理结构化数据;在Hadoop基础上实现;提供类似SQL的HiveQL语言。
Hive系统如下:

  • 数据存储在HDFS上。HDFS目录:/usr/hive/warehouse/
  • Table:一个单独的hdfs目录。/hdfs/hive/warehouse/表名。Hive中的Table和数据库中的Table在概念上是类似的。
  • Table可以进一步划分为Partition。Partition 对应于数据库中的Partition列的密集索引。
  • Partition可以进一步划分为Bucket。Buckets对指定列计算hash,根据hash值切分数据,目的是为了并行,每一个Bucket对应一个文件。
  • Partition:每个Partition是Table目录下的子目录。假设pkey是partition key:/user/hive/warehouse/表名/pkey=value
  • Bucket:每个Bucket是Partition目录下的一个子目录。假设pkey是partition key,bkey是bucket key:/usr/hive/warehouse/表名/pkey=value/bkey=value
  • HiveQL:类似SQL,部分SQL和扩展,采用MapReduce扩展
  • SerDe:序列化/反序列化。
  • MetaStore存储表的定义信息等;默认在本地${HIVE_HOME}/metastore_db中;也可以配置存储在数据库RDBMS系统中。
  • Hive CLI:命令行客户端,可以执行各种HiveQL命令。

3、Hive数据模型
关系型表+扩展
(1)关系型表:无序记录;每个记录包含多列;每个列可以是原子数据类型。
(2)扩展:(1) 可以是更加复杂的类型(2)可以直接读取已有的外部数据,程序员提供一个SerDe的实现。(3) 可以表达MapReduce
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值