2014年06月_anzhsoft

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Spark技术内幕：一个图搞定Spark到底有多少行代码

Spark1.0.0发布一个多月了，那么它有多少行代码（Line of Code, LOC）？

2014-06-30 17:04:54 24193 5

原创博客流量分析

博客访问的详细统计，可以发现挺多有意思的事情，比如上午9点的访问量最高，尤其是对推荐到CSDN首页的文章；北京，广东的码农较多，访问量近半；推荐到CSDN首页的文章访问量要比推荐到博客首页要好得多。

2014-06-28 14:18:34 22044 13

原创 Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

本文详细讲解了Spark在Standalone模式下的Master的HA的源码分析。为了解决Standalone模式下的Master的SPOF，Spark采用了ZooKeeper提供的选举功能。Spark并没有采用ZooKeeper原生的Java API，而是采用了Curator，一个对ZooKeeper进行了封装的框架。采用了Curator后，Spark不用管理与ZooKeeper的连接，这些对于Spark来说都是透明的。Spark仅仅使用了100行代码，就实现了Master的HA。当然了，Spark是

2014-06-24 20:25:39 33050 10

原创 Spark技术内幕：Client，Master和Worker 通信源码解析

本文分析了Spark1.0.0的Client，Master和Worker之间是如何通信的。通过对通信的分析，可以清楚的理解各个角色的作用和责任，和它在集群中扮演的不同角色。当然了，为了便于源码分析，本文开始分析了akka，一个非常优秀的actor的实现：高性能，易于编程，可扩展和弹性无中心。

2014-06-17 21:43:06 35139 15

原创 Spark：大数据的电花火石！

Apache Spark™is a fast and general engine for large-scale data processing：一种快速通用可扩展的数据分析引擎。如果想要搞清楚Spark是什么，那么我们需要知道它解决了什么问题，还有是怎么解决这些问题的。本文将带领你进入Spark的世界，首先阐述了为什么Spark能够在众多的大数据分析平台中脱颖而出：通用，易用，高性能和与Hadoop的有效整合。Spark All in One的解决方案使用一个通用栈解决了流式，交互式，实时查询，迭代

2014-06-13 23:19:10 29847 23