海量数据处理(转三)---Google的高可扩展架构

最新推荐文章于 2019-07-05 20:39:00 发布

jalorlu

最新推荐文章于 2019-07-05 20:39:00 发布

阅读量806

点赞数

分类专栏：数据库知识文章标签：扩展 google 存储服务器 mapreduce 负载均衡

数据库知识专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Google需要处理数据真正可以称得上海量，这依赖于其分布式的高扩展架构，否则，再强的小型机大型机也扛不住互联网每天产生的“信息垃圾”。Google的Jeff Dean同学为我们解密了Google的高可扩展性架构，ppt可以从这里下载。

一、底层架构

负载并行分配到多个硬件机器上
软件必须采用容错处理，不依赖具体的某一个台机器运行
大量采用刀片服务器和PC Server，低端存储和网络设备
机器追求性价比而不是盲目的高性能
基于Linux

二、分布式系统

调度系统：Scheduling System
调度系统是一个底层支撑系统，负责调度监控Cluster资源

文件存储：GFS
Master节点负责管理文件系统元数据
Chunkserver存放具体数据，以64MB为单元分布
客户端通过master查找文件
客户端直接从chunkserver获得需要的数据
目前运行超过200套GFS群集
超过5000台机器
超过5PB数据
为10000台以上客户端提供服务

数据存储：BigTable
采用多维稀疏映射图模型，每一个数据单元Cell可以存储不同时间截的数据
将表按行分隔成Tablet，分布到不同服务器上存储
底层存储架构采用GFS
Master节点处理元数据和负载均衡
Tablet服务器存储数据
锁服务器(Lock Service)控制数据访问的一致性
超过500个数据单元
最大的单元存储超过6000TB的数据，使用了超过3000台机器
最忙的单元支撑了500000次以上的操作

数据处理：MapReduce
MapRedule是Google的批量数据处理工具，分为两大功能

映射(Map)：根据输入生成(key,value)键值对
简化(Reduce)：合并存储(key,value)键值对

MapReduce用于Google的大多数产品中，包括Google Earth,News,Analytics,Search Quality,Indexing等等

目前，调度系统/GFS/BigTable/MapReduce可以在同一个群集内协同工作

三、未来的发展方向

跨越数据中心的分布式系统
更高的自动化程度

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
海量数据处理(转三)---Google的高可扩展架构

Google需要处理数据真正可以称得上海量，这依赖于其分布式的高扩展架构，否则，再强的小型机大型机也扛不住互联网每天产生的“信息垃圾”。Google的Jeff Dean同学为我们解密了Google的高可扩展性架构，ppt可以从这里下载。一、底层架构负载并行分配到多个硬件机器上软件必须采用容错处理，不依赖具体的某一个台机器运行大量采用刀片服务器和PC Server，低端存储和网络设备机
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。