2014年11月_cdai

原创并发计算模型BSP与SEDA

1 BSP批量同步并行计算BSP(Bulk Synchronous Parallel)批量同步并行计算用来解决并发编程难的问题。名字听起来有点矛盾，又是同步又是并行的。因为计算被分组成一个个超步(super-step)，超步内并行计算并且结点间不能通信。在超步之间设置同步栅栏(barrier synchronization)，计算完成后相互通信，全部完成后才能继续下一个超步。2 SEDA阶段

2014-11-30 21:42:37 3734

首先简单介绍一下Dremel是什么，能解决什么问题。第二部分着重讲Dremel的数据模型，即数据结构。第三部分将谈一下在此数据结构上设计的算法。1 起源Dremel的数据模型起源于分布式系统的应用环境(Protocol Buffers，一种在Google内广泛使用，现已开源的实现)。其数据模型是基于强类型的嵌套记录，抽象语法可以表示成下面公式：一个例子：2 嵌套列式存储2.1 记录结构的无损表示首

2014-11-30 21:33:07 9453 1

原创开发环境搭建中的网络代理问题

有时在网络受限的情况下，我们需要通过网络代理才能连接到网络，这就给我们的搭建开发环境带来很大麻烦。这里对各种软件的网络代理设置方法进行汇总，留作备忘。1 IE代理设置通过控制面板或者IE浏览器的选项打开“Internet选项”界面。注意：但很多程序都不会走IE里设置的代理，所以还要单独设置。 2 Intellij IDEAIntellij IDEA中包含了很多有用的插件，要想下载当然也是需要设置代

2014-11-27 20:29:36 18663 1

原创分布式内存文件系统Tachyon

UCBerkeley研发的Tachyon(超光子['tækiːˌɒn]，名字要不要这么太嚣张啊：)是一款为各种集群并发计算框架提供内存数据管理的平台，也可以说是一种内存式的文件系统吧。如下图，它就处于这样一个层次：在现有存储系统如HDFS之上，在Spark，MapReduce，Impala等各种计算框架之下。为什么要有这么一个框架呢？MapReduce就不说了，但像Spark这种内存计算框架，为什

2014-11-27 20:22:27 9535 3

原创 Spark发展现状与战线

前言现今Spark正是风头正劲时，Spark本是UCBerkeley的AMPLab诞生的项目，后来捐赠给了Apache来管理源码和后续发展。今年从Apache孵化器终于孵化出了1.0版本。其对大数据的支持从内存计算和流处理，到交互式查询，一直到图计算和机器学习，可谓摆开了架势、拉长了战线，一方面挑战老前辈Hadoop和MapReduce，另一方面又随时准备迎接同样的后起之秀的挑战。大数据的今天今天

2014-11-27 20:15:46 8253

原创 Spark分布式计算和RDD模型研究

1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语，使用户不用操心任务分发和错误容忍，非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持，使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景：Ø 迭代式算法：迭代式机器学习、图算法，包

2014-11-22 14:54:47 18955 6

原创 LMAX高并发系统架构

很早就看到过MF的这篇The LMAX Architecture，可是之前一来英文水平不够，二来确实看不懂… 今天有幸再次看到，一口气读完终于有所领悟。1 Overall ArchitectureLMAX是一个新的金融交易平台。系统完全构建于JVM之上，却能在一个单线程上每秒处理6m的订单(其实是指核心业务逻辑处理类是单线程的)。系统主要由高并发组件Disruptors和业务服务Business

2014-11-22 14:45:03 10725 1

原创分布式缓存GemFire架构介绍

1什么是GemFireGemFire是一个位于应用集群和后端数据源之间的高性能、分布式的操作数据(operational data)管理基础架构。它提供了低延迟、高吞吐量的数据共享和事件分发。GemFire充分利用网络中的内存和磁盘资源，形成一个实时的数据网格(data fabric or grid)。 GemFire的主要特性有：Ø 多种网络拓扑Ø 高并发的内存数据结构，避免锁争夺Ø 可选

2014-11-22 14:36:29 41283 16

原创巨星陨落 - Jim Gary

偶然在微软Research中搜论文时搜到了神牛Jim Gary的paper，看着照片有点眼熟，貌似在买过的哪本书中见过。于是就饶有兴致地看着Jim的生平介绍，结果… “Dr. Gray joinedMicrosoft in 1995 as a Technical Fellow, researcher, and manager of the BayArea Research Center. His

2014-11-16 20:24:32 6153

原创实时处理与流处理

前言：作为一个程序员，总是能不时地听到各种新技术名词，大数据、云计算、实时处理、流式处理、内存计算… 但当我们听到这些时髦的名词时他们到底是在说什么？偶然搜到一个不错的帖子，就总结一下实时处理和流式处理的区别吧。正文：要说实时处理就得先提一下实时系统(Real-timeSystem)。所谓实时系统就是能在严格的时间限制内响应请求的系统。例如如果某系统能严格保证在10毫秒内处理来自网络的NASDAQ

2014-11-15 09:52:28 15588

原创几张图看懂列式存储

最近看到一篇很好资料，里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了，牛啊！最喜欢的就是这种浅显易懂就把背景知识讲得明明白白，而不是长篇大论的讲概念。1 为什么要按列存储列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组织表(翻译不好，直接抄原

2014-11-15 09:50:18 65245 36

原创 Storm 0.9安装指南

Storm 0.9.2安装指南0 Storm0.9的亮点引用网上的描述：“Storm 0.9.0.1版本的第一亮点是引入了netty transport。Storm网络传输机制实现可插拔形式，当前包含两种方式：原来的0mq传输，以及新的netty实现；在早期版本中（0.9.x之前的版本），Storm只支持0mq传输，由于0MQ是一个本地库（native library），对平台的依赖性较高，要完全

2014-11-15 09:43:28 7325 1

西代零零发