hadoop应用(云计算大会)

第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕

在Hadoop应用实战技术培训专场:ChinaHadoop小象社区专研人对HBase和Hive做了专题演讲:

众所周知Hadoop不是万能钥匙,同样有很多不适用的场景,比如说:

1、低延迟的数据访问,除了Hbase,Hadoop并不适用于需要实时查询和低延迟的数据访问。数据库通过索引记录可以降低延迟和快速响应,这一点单纯的用Hadoop是没有办法代替的。

2、数据量并不大的时候,Hadoop一般适用于百TB 及PB以上的数据量。当你的数据只有几十GB时,使用Hadoop是没有任何好处的。按照企业的需求有选择性的的使用Hadoop,不要盲目追随潮流。

3、大量的小文件,小文件指的是那些size比HDFS的block size(默认64M)小得多的文件。如果在HDFS中存储大量的小文件,每一个个文件对应一个block,那么就将要消耗namenode大量的内存来保存这些block的信息。

4、太多的写入和文件更新,HDFS天然适用于一次写入多次读取的场景。当有太多文件更新需求,Hadoop没有办法支持。


如何从零开始设计一个Hadoop集群:

需求分析与配置计算、硬件选型、软件选型、组网设计、业务设计。他表示大规模多租户Hadoop集群关键的特征:一是数据隔离。最基本的诉求就是数据之间需要隔离,业务A部门他的应用不能访问业务B的数据,保护数据之间的私密性,防止无疑之间把数据覆盖掉。比如运营商有一些销售部门,销售数据是比较敏感的,不能被其他部门所见。

二是控制权限。不同的服务有不同的权限定义,在YARN这种计算资源池里会定义不同的计算队列,每个用户能够把自己的任务提交到每个资源队列里面,对应的任务是用户以高铁的速度去运行我的业务,还是以自行车的速度去运行我的业务。三是资源优先级。同一个服务也有高低的差异,这里有租户自己本身的优先级。四是数据共享。五是统一资源管理框架YARN。六是租户管理服务。这些东西全部加起来就能够形成一个基本的多租户的Hadoop集群,才能够完整的描述它的基本特征。

Hbase的特点:

Hbase的体系结构还是比较简单的,最主要的三大组件一个是Master/RegionServer/Zookeeper,ZooKeeper,分布式锁,提供分布式环境下的多机协调功能,哪些服务器还活着?定位 ROOT Region;Master,负载均衡,错误恢复,Meta数据的事务控制;RegionServer,读写数据,Split。

1.Key-Value类型的DB
仅适合对单一key的增删改查,以及扫库操作
数据按key的字典序顺序存储
2.列式存储
Schema限制很少,可以自由的添加字段
对半结构化数据非常有用
3.线性扩展
容量和处理能力随机群数量增长
可以处理上P的数据
4.高可靠性
设计运行在廉价pc上,无单点问题
5.强一致性

Hive的特点:

Hive是建立在Hadoop之上的一个数据仓库,数据存在HDFS上,计算用的是Mapred模型。一个连接上去,其他的连接就连接不上去,只能等我的连接释放以后其他的连接才能连接。我们真正的想把Hive上线,不可能说一个公司搭一个Hive就一个人能用,我们要做到能够并行。这是在Hadoop架构之上的三个应用,报表我们理解为数据分析,在线业务是基于HBase,还有BI数据挖掘。报表中心一般用的是Hive和Pig,如果业务特别复杂要用到一些算法,我们要手动的去写MR。




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值