Hadoop
五星上炕
君子悟本,本立而道生。
展开
-
Google File System论文阅读难点笔记
阅读GFS论文时,发现有几个地方特别不容易理解,特记录如下。 一致性问题 GFS中的文件由块组成,同一个块有多个副本,副本分布在不同的节点上,如何保证数据的一致性? 论文中有“宽松的一致性模型”这种说法,一般的理解,“宽松”的意思就是不严格保证,为什么呢?原文中的说法是为了简化系统设计。 为什么会有一致性的问题?一致性问题产生的根源是什么? 写入操作失败,是导致不一致性的一个原因。 更...原创 2018-09-14 18:26:27 · 556 阅读 · 0 评论 -
ZooKeeper实现成员列表管理
概要 分布式应用的一个主要难点是“部分失败”。例如通过消息中间件,网络中的一个节点向另一个节点发送消息,发送节点很难知道消息是否成功送达,什么时候送达,接收节点是否正常运行,消息是否被正确处理,什么时候被处理等。ZooKeeper被用来在分布式应用中提供分布式协调服务,使用ZooKeeper本身并不能避免“部分失败”发生,因为“部分失败”是分布式应用的因有属性。相反,ZooKeeper提供一系列...原创 2018-10-22 13:09:45 · 577 阅读 · 0 评论 -
ZooKeeper服务模型、操作、实现
ZooKeeper提供高可用、高性能的协调服务。本文讨论其提供的服务类型、模型、操作、实现。 数据模型 ZooKeeper通过znode管理数据,众多的znode构成类似于Linux目录的层级结构。每个znode中包含数据及ACL。因为ZooKeeper的目录是提供协调服务而非数据存储,因此对于每个znode中可以存储的数据有大小限制,最大是1M。对znode中数据的读、写、更新是原子的。在一...原创 2018-10-22 18:38:35 · 428 阅读 · 0 评论 -
ZooKeeper构建应用之配置服务器
配置信息的集中管理与共享是分布式应用的基本需求。对于此类需求,ZooKeeper可以提供两个层面的特性。一个是提供高可用存储服务,允许分布式应用的参与者更新、读取ZooKeeper中的配置信息。另一个是主动配置服务,当ZooKeeper中的配置信息发生变更时,主动通知设置了监视器的客户端,客户端收到通知后,立刻执行相应操作。 简化起见,本示例有两个前置条件。 第一,配置项的名称直接使用znode...原创 2018-10-23 11:40:49 · 321 阅读 · 0 评论 -
基于GFS的Hadoop实现原理分析
1、摘要 一个面向数据密集型应用的可伸宿、分布式文件系统。 使用廉价服务器实现高容错特性,注意是廉价服务器,不是昂贵的普通人一辈子工资买不起、没见过的特制服务器。 同时请注意是容错,不是避免错误的发生。 实现大量客户端并发访问的高性能。 2、介绍 与一般的分布式文件系统在概念上的区别: 集群由成百上千的廉价服务器组成,有成百上千的客户端访问系统,因此,组件失效被认为是常态。持续的监测、...原创 2019-03-19 21:16:09 · 2751 阅读 · 0 评论