大规模数据处理

最新推荐文章于 2024-07-20 11:22:21 发布

liucs1986

最新推荐文章于 2024-07-20 11:22:21 发布

阅读量154

点赞数

本文链接：https://blog.csdn.net/liucs1986/article/details/83640228

版权

今天看了一个百度运维工程师的分享：百度大规模数据处理，主要讲的是hdfs的一些基本情况及百度在使用中遇到的问题及对策。
hadoop这个词我从去年开始听说，一直不知道它是干什么用的，听了这个哥们的分享，有了大致的了解。

HDFS:
Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS.
具有以下优势：
支持海量存储
全局命名空间
高可用性
高扩展性
易用性
支持MapReduce编程框架
支持Hbase等分布式索引系统

Hadoop是一个开源项目，它是Google File system的开源实现。

Goole集群系统的三个核心组件：
1、GFS 分布式文件系统，隐藏下层负载均衡、冗余复制等细节，对外提供统一文件系统接口。GFS把文件分成64MB的块，分布在集群的机器上，使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点，根据文件索引，找寻文件块。
2、MapReduce。大多数分布式运算可以抽象为MapReduce操作。Map是把Input分解成中间的Key/Value对，Reduce把Key/Value合成最终Output。这两个函数由程序员提供给系统，下层设施把Map和Reduce操作分布在集群上运行，并把结果存储在GFS上。　
3、BigTable。一个大型的分布式数据库，这个数据库不是关系式的数据库。像它的名字一样，就是一个巨大的表格，用来存储结构化的数据。

对应Google的这三个核心组件有Hdfs三个开源实现：
GFS-->HDFS
Google MapReduce--->MapReduce
BidTable----->Hbase

HDFS把集群中的节点分成两类：NameNode和DataNode。NameNode是唯一的，程序与之通信，然后从DataNode上存取文件。见下面示意图：

[img]http://dl.iteye.com/upload/attachment/260944/2076037f-77a1-33a3-a905-88aafd44faf1.jpg[/img]

其他内容等学习后再补充
MapReduce
Hbase
Hypertable
MPI

liucs1986

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大规模数据处理

今天看了一个百度运维工程师的分享：百度大规模数据处理，主要讲的是hdfs的一些基本情况及百度在使用中遇到的问题及对策。hadoop这个词我从去年开始听说，一直不知道它是干什么用的，听了这个哥们的分享，有了大致的了解。HDFS:Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS.具有以下优势：支持海量存储全局...
复制链接

扫一扫