分布式与Hadoop
文章平均质量分 83
主题:关于分布式存储、计算、通讯系统的研究与经验。
脉络:以Hadoop为例,研究、分析分布式系统的架构、实现及应用。
内容:分布式文件系统、分布式锁、一致性、可用性、可靠性、性能、并发量、线程模型、调度算法、负载侦测、故障恢复等。
foreach_break
专注web、分布式、数据库、数据处理。
展开
-
你了解实时计算吗?
实时计算是什么?原创 2015-07-27 05:55:12 · 3013 阅读 · 4 评论 -
storm如何分配任务和负载均衡?
如题.原创 2015-07-23 20:06:06 · 3718 阅读 · 1 评论 -
storm基础框架分析
背景前期收到的问题: 1、在Topology中我们可以指定spout、bolt的并行度,在提交Topology时Storm如何将spout、bolt自动发布到每个服务器并且控制服务的CPU、磁盘等资源的? 2、Storm处理消息时会根据Topology生成一棵消息树,Storm如何跟踪每个消息、如何保证消息不丢失以及如何实现重发消息机制?上篇:storm是如何保证at least onc原创 2015-07-22 23:05:20 · 1971 阅读 · 2 评论 -
storm是如何保证at least once语义的
storm是通过什么机制来保证消息至少处理一次的语义的原创 2015-07-21 12:22:13 · 5467 阅读 · 3 评论 -
学习笔记:The Log(我所读过的最好的一篇分布式技术文章)
这是一篇学习笔记。 学习的材料来自于我读过的最好的一篇分布式技术文章,没有之一。原创 2015-07-16 12:25:55 · 3522 阅读 · 7 评论 -
学习笔记:Twitter核心数据类库团队的Hadoop优化经验
学习笔记.原创 2015-07-15 15:37:50 · 2826 阅读 · 2 评论 -
你真的很熟分布式处理和事务吗?
本文从码农角度出发,聊聊分布式和事务.原创 2015-07-08 11:23:17 · 1404 阅读 · 2 评论 -
【HBase】how many zookeepers should i run?
How many ZooKeepers should I run?You can run a ZooKeeper ensemble that comprises 1 node only but in production it is recommended that you run a ZooKeeper ensemble of 3, 5 or 7 machines; the more member原创 2015-05-17 23:51:36 · 811 阅读 · 0 评论 -
【Hadoop】HDFS - 创建文件流程详解
1.本文目的通过解析客户端创建文件流程,认知hadoop的HDFS系统的一些功能和概念。2.主要概念2.1 NameNode(NN):HDFS系统核心组件,负责分布式文件系统的名字空间管理、INode表的文件映射管理。如果不开启备份/故障恢复/Feneration模式,一般的HDFS系统就只有1个NameNode,当然这样是存在单点故障隐患的。NN管理两个核心的表:文件到块序列的映射、块到机器序列的原创 2015-05-08 03:07:51 · 3699 阅读 · 0 评论 -
【Hadoop】RpcServer 线程模型
RpcServer 线程模型NameNode启动过程:线程模型Listener 1个:监听并接受来自客户端的连接.将新建连接放入pendingConnections.清理空闲连接.唤醒Reader.Reader N个 : 从pendingConnections中获取连接,读取数据,从RpcRequest构造Call,并放入callQueue.Handler N 个:从callQueue原创 2015-05-07 01:01:37 · 1016 阅读 · 0 评论 -
高性能server分析 - Hadoop的RpcServer
一、ListenerListener线程,当Server处于运行状态时,其负责监听来自客户端的连接,并使用Select模式处理Accept事件。同时,它开启了一个空闲连接(Idle Connection)处理例程,如果有过期的空闲连接,就关闭。这个例程通过一个计时器来实现。当select操作调用时,它可能会阻塞,这给了其它线程执行的机会。当有accept事件发生,它就会被唤醒以处理全部的事件,处理事原创 2015-05-05 01:06:36 · 1819 阅读 · 0 评论 -
高性能大并发server的基础
一、背景进入多核时代已经很久了,大数据概念也吵得沸沸扬扬,不管你喜欢不喜欢,不管你遇到没遇到,big-data或bigger-data都必须正视.处理大数据,基本都离不开分布式计算和分布式存储,这其中以hadoop最为使用广泛和经典。分布式系统,就离不开计算系统、网络系统、文件系统和数据库系统。这么多系统,之间又是如何协作的呢? 通讯过程又是如何保障高性能的呢?1.单处理器在以前的单核心cpu下,原创 2015-05-04 14:17:04 · 1878 阅读 · 2 评论