分布式与Hadoop_foreach_break的博客-CSDN博客

分布式与Hadoop

关注

文章平均质量分 83

主题：关于分布式存储、计算、通讯系统的研究与经验。脉络：以Hadoop为例，研究、分析分布式系统的架构、实现及应用。内容：分布式文件系统、分布式锁、一致性、可用性、可靠性、性能、并发量、线程模型、调度算法、负载侦测、故障恢复等。

关注数：文章数：12 文章阅读量：31141 文章收藏量：16

作者: foreach_break

专注web、分布式、数据库、数据处理。

展开

你了解实时计算吗？

实时计算是什么？

原创 2015-07-27 05:55:12 · 3013 阅读 · 4 评论
storm如何分配任务和负载均衡？

如题.

原创 2015-07-23 20:06:06 · 3718 阅读 · 1 评论
storm基础框架分析

背景前期收到的问题： 1、在Topology中我们可以指定spout、bolt的并行度，在提交Topology时Storm如何将spout、bolt自动发布到每个服务器并且控制服务的CPU、磁盘等资源的？ 2、Storm处理消息时会根据Topology生成一棵消息树，Storm如何跟踪每个消息、如何保证消息不丢失以及如何实现重发消息机制？上篇：storm是如何保证at least onc

原创 2015-07-22 23:05:20 · 1971 阅读 · 2 评论
storm是如何保证at least once语义的

storm是通过什么机制来保证消息至少处理一次的语义的

原创 2015-07-21 12:22:13 · 5467 阅读 · 3 评论
学习笔记：The Log（我所读过的最好的一篇分布式技术文章）

这是一篇学习笔记。学习的材料来自于我读过的最好的一篇分布式技术文章，没有之一。

原创 2015-07-16 12:25:55 · 3522 阅读 · 7 评论
学习笔记：Twitter核心数据类库团队的Hadoop优化经验

学习笔记.

原创 2015-07-15 15:37:50 · 2826 阅读 · 2 评论
你真的很熟分布式处理和事务吗？

本文从码农角度出发，聊聊分布式和事务.

原创 2015-07-08 11:23:17 · 1404 阅读 · 2 评论
【HBase】how many zookeepers should i run?

How many ZooKeepers should I run?You can run a ZooKeeper ensemble that comprises 1 node only but in production it is recommended that you run a ZooKeeper ensemble of 3, 5 or 7 machines; the more member

原创 2015-05-17 23:51:36 · 811 阅读 · 0 评论
【Hadoop】HDFS - 创建文件流程详解

1.本文目的通过解析客户端创建文件流程，认知hadoop的HDFS系统的一些功能和概念。2.主要概念2.1 NameNode（NN）：HDFS系统核心组件，负责分布式文件系统的名字空间管理、INode表的文件映射管理。如果不开启备份/故障恢复/Feneration模式，一般的HDFS系统就只有1个NameNode，当然这样是存在单点故障隐患的。NN管理两个核心的表：文件到块序列的映射、块到机器序列的

原创 2015-05-08 03:07:51 · 3699 阅读 · 0 评论
【Hadoop】RpcServer 线程模型

RpcServer 线程模型NameNode启动过程：线程模型Listener 1个：监听并接受来自客户端的连接.将新建连接放入pendingConnections.清理空闲连接.唤醒Reader.Reader N个 : 从pendingConnections中获取连接，读取数据，从RpcRequest构造Call，并放入callQueue.Handler N 个：从callQueue

原创 2015-05-07 01:01:37 · 1016 阅读 · 0 评论
高性能server分析 - Hadoop的RpcServer

一、ListenerListener线程，当Server处于运行状态时，其负责监听来自客户端的连接，并使用Select模式处理Accept事件。同时，它开启了一个空闲连接（Idle Connection）处理例程，如果有过期的空闲连接，就关闭。这个例程通过一个计时器来实现。当select操作调用时，它可能会阻塞，这给了其它线程执行的机会。当有accept事件发生，它就会被唤醒以处理全部的事件，处理事

原创 2015-05-05 01:06:36 · 1819 阅读 · 0 评论
高性能大并发server的基础

一、背景进入多核时代已经很久了，大数据概念也吵得沸沸扬扬，不管你喜欢不喜欢，不管你遇到没遇到，big-data或bigger-data都必须正视.处理大数据，基本都离不开分布式计算和分布式存储，这其中以hadoop最为使用广泛和经典。分布式系统，就离不开计算系统、网络系统、文件系统和数据库系统。这么多系统，之间又是如何协作的呢？通讯过程又是如何保障高性能的呢？1.单处理器在以前的单核心cpu下，

原创 2015-05-04 14:17:04 · 1878 阅读 · 2 评论

分布式与Hadoop

作者: foreach_break

你了解实时计算吗？

storm如何分配任务和负载均衡？

storm基础框架分析

storm是如何保证at least once语义的

学习笔记：The Log（我所读过的最好的一篇分布式技术文章）

学习笔记：Twitter核心数据类库团队的Hadoop优化经验

你真的很熟分布式处理和事务吗？

【HBase】how many zookeepers should i run?

【Hadoop】HDFS - 创建文件流程详解

【Hadoop】RpcServer 线程模型

高性能server分析 - Hadoop的RpcServer

高性能大并发server的基础