Big Data
jmppok
这个作者很懒,什么都没留下…
展开
-
流处理框架Storm简介
流处理框架Storm简介EMC中国研究院 向东 提起Big Data,人们往往会提起大数据的4个V: Volume,Velocity , Variety 以及Value。这四个V从各个侧面说明了大数据并不是新瓶装旧酒: 面对数据产生来源,产生方式,处理方式等等一系列质变,原来适用的数据挖掘/BI工具已经不再满足实际需要,人们迫切转载 2013-12-09 21:16:38 · 1304 阅读 · 0 评论 -
最火爆的开源流式系统Storm vs 新星Samza
转载自:http://blog.csdn.net/hljlzc2007/article/details/16926715分布计算系统框架,按照数据集的特点来说,主要分为data-flow和streaming两种。data-flow主要是以数据块为数据源来处理数据,代表有:MR、Spark等,我称作它们为大数据,而streaming主要是处理单位内得到的数据,这种方式,更注重于实时性,主转载 2013-12-11 13:52:29 · 2016 阅读 · 0 评论 -
Google的实时大规模流式处理系统MillWheel (水推磨轮转)
转载自:http://blog.csdn.net/colorant/article/details/13294741==目标问题 == MillWheel的设计目标是提供一个大规模分布式的低延迟流式数据处理框架,基本的要求包括: 数据的及时可用性 -也就是低延迟啦,尽可能避免不必要的中间缓冲层造成的数据延迟全局可用的数据持久性API -主要用来处理各种需要数转载 2013-12-11 14:06:28 · 4183 阅读 · 2 评论 -
Spark 快速理解
转载自:http://blog.csdn.net/colorant/article/details/8255958==是什么 == 目标Scope(解决什么问题) 在大规模的特定数据集上的迭代运算或重复查询检索 官方定义aMapReduce-like cluster computing framework designed for low-l转载 2013-12-11 14:21:09 · 1174 阅读 · 0 评论 -
我是如何向老婆解释MapReduce的?
我是如何向老婆解释MapReduce的?2011/08/25 | 分类: 程序员 | 0 条评论 | 来源: 伯乐在线 | 标签: Big Data, MapReduce分享到:12昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们的反馈)。我成功转载 2013-12-11 16:25:29 · 2327 阅读 · 0 评论 -
翻译:Storm Scalable ——Storm弹性计算
原文地址:http://storm-project.net/about/scalable.html,内容如下:Storm topologies are inherently parallel and run across a cluster of machines. Different parts of the topology can be scaled individually b翻译 2013-12-05 15:09:12 · 1889 阅读 · 0 评论 -
Storm中数据的输入输出
概述Storm是一个实时流处理系统,其中运行的是Topology。初学Storm的小伙伴可能会有这样的问题:我写了Spout和Bolt,创建了Topology,提交到了Cluster中,然后呢?怎么访问并使用这个Topology呢?原创 2013-12-12 16:48:40 · 5537 阅读 · 0 评论 -
Hadoop vs Spark性能对比
基于Spark-0.4和Hadoop-0.20.21. Kmeans数据:自己产生的三维数据,分别围绕正方形的8个顶点{0, 0, 0}, {0, 10, 0}, {0, 0, 10}, {0, 10, 10},{10, 0, 0}, {10, 0, 10}, {10, 10, 0}, {10, 10, 10}Point number189,918,转载 2013-12-05 14:02:03 · 1748 阅读 · 0 评论 -
Spark与Hadoop计算模型的比较分析
Spark与Hadoop计算模型的比较分析最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都在研究和使用它。 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。 那么Spark和Hadoop有什么不同呢? 1.Spark的中间数据放到内存中,对于迭代运算效率比较高。 Spark aims to ex转载 2013-12-05 14:04:19 · 1459 阅读 · 0 评论 -
Storm弹性计算:实时调整Topology并发数
原创文章,如需转载,请注明出处:Storm计算以topology为单位,topology提交到Storm集群中运行后,通过storm rebalance 命令可对topology进行动态调整。比如增加Topology的worker数,修改Bolt,Spout的并行执行数量 parallelism等,从而实现topology的动态调整,达到弹性计算的目的。(当然调整时要配合监控模块)原创 2013-12-05 16:34:04 · 3723 阅读 · 0 评论 -
Storm Akka Finagle对比及使用场景分析
本文翻译自:http://blog.samibadawi.com/2013/04/akka-vs-finagle-vs-storm.htmlBy jmppok at 2013.12.12Storm Akka Finagle对比及使用场景分析1 概述Storm、Akka、Finagle是三个开源的分布式并行处理框架,都基于JVM运行。他们在解决下面这些问题上十翻译 2013-12-12 16:16:33 · 9242 阅读 · 7 评论 -
storm配置:设置worker进程内存大小
Storm中真正干活的是各个worker,而worker由supervisor负责启动。在topology启动过程中我们会看到如下的启动日志:这就是启动一个worker进程,也就是一个JVM进程。默认情况下,Storm启动worker进程时,JVM的最大内存是768M。但我在使用过程中,由于会在Bolt中加载大量数据,768M内存无法满足需求,会导致内存溢出程序原创 2013-12-20 13:46:22 · 14740 阅读 · 0 评论 -
Storm翻版:开源实时数据处理系统Samza
转载自:http://www.kankanews.com/ICkengine/archives/49449.shtmlTwitter的流处理系统Storm最近出现了一个“翻版”——Samza。Samza是近日由LinkedIn开源的一项技术,它是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了Link转载 2013-12-11 14:03:28 · 1452 阅读 · 0 评论 -
Storm rebalance原理及可靠性保证
1.rebalance原理Storm可以在Topology运行过程中调整其并发度。其原理如下:4. rebalancing(1) startup:将状态转换成do-rebalance(2) kill: 实际上执行的是 kill-transition 方法,将 topology 的状态先改为 killed, 然后经过 kill-time 的时间,将topology remove原创 2013-12-10 18:28:50 · 5521 阅读 · 1 评论 -
lume+kafka+storm+mysql 数据流
今天终于将 flume + kafka + storm + mysql 这条数据流走通了,虽然只是一个简单的测试例子,但是依据这条数据流可以做的事情很多。先简单看一下这几个工具的架构吧,架构图会更好说明:flume的架构图:kafka的架构图:storm的架构图:我们使用的 flume + kafka + storm +mysq转载 2013-12-11 10:15:25 · 3280 阅读 · 0 评论 -
使用Storm实现实时大数据分析
摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获转载 2013-12-09 21:43:22 · 2624 阅读 · 2 评论 -
Strom Topology执行分析:worker数,Bolt实例数,executor数,task数
原创文章,转载请注明出处:在创建Storm的Topology时,我们通常使用如下代码:builder.setBolt("cpp", new CppBolt(), 3).setNumTasks(5).noneGrouping(pre_name);Config conf = new Config();conf.setNumWorkers(3);参数1:bolt名称原创 2013-12-10 15:23:31 · 9167 阅读 · 5 评论 -
Storm Trident简介
转载自:[翻译][Trident] Storm Trident 教程英文原址:https://github.com/nathanmarz/storm/wiki/Trident-tutorial----------------Trident是在storm基础上,一个以realtime 计算为目标的高度抽象。 它在提供处理大吞吐量数据能力的同时,也提供了低延时分布式查询和有状态流式转载 2013-11-20 14:11:17 · 1756 阅读 · 0 评论 -
Storm 中Topology的并发度的理解 (1)
原文地址:http://www.cnblogs.com/fxjwind/archive/2013/05/04/3059514.html英文地址:https://github.com/nathanmarz/storm/wiki/Understanding-the-parallelism-of-a-Storm-topology概念一个Topology可以包含一个或多个worker(转载 2013-12-10 14:57:35 · 2244 阅读 · 1 评论 -
Storm 中Topology的并发度的理解 (2)
原文地址:http://blog.csdn.net/derekjiang/article/details/9040243主要思想来源于storm的项目页面: https://github.com/nathanmarz/storm/wiki/Understanding-the-parallelism-of-a-Storm-topology其中加入了一些个人的理解,所以就把文章mark转载 2013-12-10 14:58:52 · 2049 阅读 · 0 评论 -
Storm中Topology的状态
Twitter Storm中Topology的状态状态转换如下,Topology 的持久化状态包括: active, inactive, killed, rebalancing 四个状态。代码上看到每种状态都可以转换成一些持久化 ( 写入到 zk 中的状态 ) 或者中间状态。Java代码 (defn state-transitions [nimbus storm-转载 2013-12-09 21:38:42 · 3623 阅读 · 0 评论 -
Storm原理与实现
Storm原理与实现 转自徐明明的blog:http://xumingming.sinaapp.com/作者:phylips@bmy 2013-021 Storm简介1.1 简介本文主要是从内部实现的角度来认识下Storm(0.7.1版本),因此需要用户对Storm的基本原理和使用具有一定的了解。如果缺乏这方面转载 2013-11-14 14:32:34 · 2089 阅读 · 0 评论 -
Understanding the Parallelism of a Storm Topology
Understanding the Parallelism of a Storm TopologyOct 16th, 2012 Table of ContentsWhat is Storm?What makes a running topology: worker processes, executors and tasksConfiguring the parallelism o转载 2013-12-10 15:05:22 · 1886 阅读 · 0 评论 -
storm rebalance 命令调整topology并行数及问题分析
原创文章,欢迎转载.转载请注明出处: 通过前面的介绍,我们知道Storm可以实现弹性计算,根据需要实时调整Topology的并行度.1)翻译:Storm Scalable ——Storm弹性计算2)Storm弹性计算:实时调整Topology并发数关于topology执行时并行度,topology状态,topology执行原理等,可以参考下面这些文章:1)Understanding the Parallelism of a Storm Topology2) Storm 中Topol原创 2013-12-10 14:48:34 · 11298 阅读 · 2 评论 -
kiji快速理解
转载自:http://blog.csdn.net/colorant/article/details/8197913==是什么 == 目标Scope(解决什么问题) 官方定义 Kiji的核心模块是KijiSchema,按照官方的说法:KijiSchema provides a simple Java API for storing andman转载 2013-12-11 14:24:19 · 7093 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
转载自:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/Hadoop 新 MapReduce 框架 Yarn 详解唐 清原, 咨询顾问简介: 本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的转载 2013-12-11 14:30:05 · 1703 阅读 · 0 评论 -
storm性能测试报告
转载自:http://blog.linezing.com/2012/02/twitter-storm%E6%80%A7%E8%83%BD%E6%B5%8B%E8%AF%95%E6%8A%A5%E5%91%8ATwitter storm性能测试报告摘要: twitter storm是一个流处理系统,本文中描述了它的基本测试性能(包括吞吐量和处理延迟)以及测试结果的简要分析测试目的转载 2013-12-27 16:41:59 · 7081 阅读 · 1 评论