今天看了一个百度运维工程师的分享:百度大规模数据处理,主要讲的是hdfs的一些基本情况及百度在使用中遇到的问题及对策。
hadoop这个词我从去年开始听说,一直不知道它是干什么用的,听了这个哥们的分享,有了大致的了解。
HDFS:
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.
具有以下优势:
支持海量存储
全局命名空间
高可用性
高扩展性
易用性
支持MapReduce编程框架
支持Hbase等分布式索引系统
Hadoop是一个开源项目,它是Google File system的开源实现。
Goole集群系统的三个核心组件:
1、GFS 分布式文件系统,隐藏下层负载均衡、冗余复制等细节,对外提供统一文件系统接口。GFS把文件分成64MB的块,分布在集群的机器上,使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点,根据文件索引,找寻文件块。
2、MapReduce。大多数分布式运算可以抽象为MapReduce操作。Map是把Input分解成中间的Key/Value对,Reduce把Key/Value合成最终Output。这两个函数由程序员提供给系统,下层设施把Map和Reduce操作分布在集群上运行,并把结果存储在GFS上。
3、BigTable。一个大型的分布式数据库,这个数据库不是关系式的数据库。像它的名字一样,就是一个巨大的表格,用来存储结构化的数据。
对应Google的这三个核心组件有Hdfs三个开源实现:
GFS-->HDFS
Google MapReduce--->MapReduce
BidTable----->Hbase
HDFS把集群中的节点分成两类:NameNode和DataNode。NameNode是唯一的,程序与之通信,然后从DataNode上存取文件。见下面示意图:
[img]http://dl.iteye.com/upload/attachment/260944/2076037f-77a1-33a3-a905-88aafd44faf1.jpg[/img]
其他内容等学习后再补充
MapReduce
Hbase
Hypertable
MPI
hadoop这个词我从去年开始听说,一直不知道它是干什么用的,听了这个哥们的分享,有了大致的了解。
HDFS:
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.
具有以下优势:
支持海量存储
全局命名空间
高可用性
高扩展性
易用性
支持MapReduce编程框架
支持Hbase等分布式索引系统
Hadoop是一个开源项目,它是Google File system的开源实现。
Goole集群系统的三个核心组件:
1、GFS 分布式文件系统,隐藏下层负载均衡、冗余复制等细节,对外提供统一文件系统接口。GFS把文件分成64MB的块,分布在集群的机器上,使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点,根据文件索引,找寻文件块。
2、MapReduce。大多数分布式运算可以抽象为MapReduce操作。Map是把Input分解成中间的Key/Value对,Reduce把Key/Value合成最终Output。这两个函数由程序员提供给系统,下层设施把Map和Reduce操作分布在集群上运行,并把结果存储在GFS上。
3、BigTable。一个大型的分布式数据库,这个数据库不是关系式的数据库。像它的名字一样,就是一个巨大的表格,用来存储结构化的数据。
对应Google的这三个核心组件有Hdfs三个开源实现:
GFS-->HDFS
Google MapReduce--->MapReduce
BidTable----->Hbase
HDFS把集群中的节点分成两类:NameNode和DataNode。NameNode是唯一的,程序与之通信,然后从DataNode上存取文件。见下面示意图:
[img]http://dl.iteye.com/upload/attachment/260944/2076037f-77a1-33a3-a905-88aafd44faf1.jpg[/img]
其他内容等学习后再补充
MapReduce
Hbase
Hypertable
MPI