大规模数据处理

今天看了一个百度运维工程师的分享:百度大规模数据处理,主要讲的是hdfs的一些基本情况及百度在使用中遇到的问题及对策。
hadoop这个词我从去年开始听说,一直不知道它是干什么用的,听了这个哥们的分享,有了大致的了解。

HDFS:
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.
具有以下优势:
支持海量存储
全局命名空间
高可用性
高扩展性
易用性
支持MapReduce编程框架
支持Hbase等分布式索引系统

Hadoop是一个开源项目,它是Google File system的开源实现。

Goole集群系统的三个核心组件:
1、GFS 分布式文件系统,隐藏下层负载均衡、冗余复制等细节,对外提供统一文件系统接口。GFS把文件分成64MB的块,分布在集群的机器上,使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点,根据文件索引,找寻文件块。
2、MapReduce。大多数分布式运算可以抽象为MapReduce操作。Map是把Input分解成中间的Key/Value对,Reduce把Key/Value合成最终Output。这两个函数由程序员提供给系统,下层设施把Map和Reduce操作分布在集群上运行,并把结果存储在GFS上。  
3、BigTable。一个大型的分布式数据库,这个数据库不是关系式的数据库。像它的名字一样,就是一个巨大的表格,用来存储结构化的数据。

对应Google的这三个核心组件有Hdfs三个开源实现:
GFS-->HDFS
Google MapReduce--->MapReduce
BidTable----->Hbase

HDFS把集群中的节点分成两类:NameNode和DataNode。NameNode是唯一的,程序与之通信,然后从DataNode上存取文件。见下面示意图:

[img]http://dl.iteye.com/upload/attachment/260944/2076037f-77a1-33a3-a905-88aafd44faf1.jpg[/img]

其他内容等学习后再补充
MapReduce
Hbase
Hypertable
MPI
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值