storm
jmppok
这个作者很懒,什么都没留下…
展开
-
流计算框架 Flink 与 Storm 的性能对比
1. 背景Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台、常用 API 和相应的文档,大量实时作业基于 Storm 构建。而 Apache Flink(以下简称“Flink”)在近期倍受关注,...转载 2019-07-30 16:40:15 · 428 阅读 · 0 评论 -
Akka 对比 Storm
转载请注明出处:原文地址:http://www.warski.org/blog/2013/06/akka-vs-storm/Akka 对比 Storm最近在工作中用到Twitter的Storm框架,于是将他与另外一个高性能,数据并行处理框架Akka进行了对比.1.什么是Akka和Storm首先对两个系统进行一个简单的介绍:Storm是一个分布式实时刘翻译 2013-12-11 18:01:30 · 5823 阅读 · 0 评论 -
Yahoo! s4和Twitter storm的粗略比较
转自:http://www.blogjava.net/killme2008/archive/2011/11/10/363238.html-----------------------------------------------------Yahoo! s4和Twitter storm的粗略比较Items\ProjectsYahoo! s4Twitte转载 2013-11-20 13:37:12 · 1798 阅读 · 0 评论 -
strom 如何保证可靠性
转自: http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/---------------------------------本文翻译自: https://github.com/nathanmarz/storm/wiki/Guaranteeing-message-processin转载 2013-11-20 13:52:47 · 1676 阅读 · 0 评论 -
Storm翻版:开源实时数据处理系统Samza
转载自:http://www.kankanews.com/ICkengine/archives/49449.shtmlTwitter的流处理系统Storm最近出现了一个“翻版”——Samza。Samza是近日由LinkedIn开源的一项技术,它是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了Link转载 2013-12-11 14:03:28 · 1452 阅读 · 0 评论 -
Storm相对Hadoop的七大优点
转载自:http://blog.csdn.net/hljlzc2007/article/details/12911467一、 比较 Storm: 分布式实时计算,强调实时性,常用于实时性要求较高的地方Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘、分析二、 优点1. 简单编程在大数据处理方面相信大家对hadoop已经耳熟能详,转载 2013-12-11 13:59:06 · 1644 阅读 · 0 评论 -
Storm rebalance原理及可靠性保证
1.rebalance原理Storm可以在Topology运行过程中调整其并发度。其原理如下:4. rebalancing(1) startup:将状态转换成do-rebalance(2) kill: 实际上执行的是 kill-transition 方法,将 topology 的状态先改为 killed, 然后经过 kill-time 的时间,将topology remove原创 2013-12-10 18:28:50 · 5521 阅读 · 1 评论 -
lume+kafka+storm+mysql 数据流
今天终于将 flume + kafka + storm + mysql 这条数据流走通了,虽然只是一个简单的测试例子,但是依据这条数据流可以做的事情很多。先简单看一下这几个工具的架构吧,架构图会更好说明:flume的架构图:kafka的架构图:storm的架构图:我们使用的 flume + kafka + storm +mysq转载 2013-12-11 10:15:25 · 3280 阅读 · 0 评论 -
最火爆的开源流式系统Storm vs 新星Samza
转载自:http://blog.csdn.net/hljlzc2007/article/details/16926715分布计算系统框架,按照数据集的特点来说,主要分为data-flow和streaming两种。data-flow主要是以数据块为数据源来处理数据,代表有:MR、Spark等,我称作它们为大数据,而streaming主要是处理单位内得到的数据,这种方式,更注重于实时性,主转载 2013-12-11 13:52:29 · 2016 阅读 · 0 评论 -
[1]Strom Bug Fix: DRPC topology setNumWorkers()
1.问题描述在使用Storm时遇到问题: 在将一个DRPC的Topology提交到Strom的cluster中时,在Config中如果设置worker num 大于1: Config conf = new Config(); conf.setDebug(true); conf.setNumWorkers(3);topology提交后不能运行,也无原创 2013-12-02 10:44:44 · 2053 阅读 · 0 评论 -
Storm中数据的输入输出
概述Storm是一个实时流处理系统,其中运行的是Topology。初学Storm的小伙伴可能会有这样的问题:我写了Spout和Bolt,创建了Topology,提交到了Cluster中,然后呢?怎么访问并使用这个Topology呢?原创 2013-12-12 16:48:40 · 5537 阅读 · 0 评论 -
storm性能测试报告
转载自:http://blog.linezing.com/2012/02/twitter-storm%E6%80%A7%E8%83%BD%E6%B5%8B%E8%AF%95%E6%8A%A5%E5%91%8ATwitter storm性能测试报告摘要: twitter storm是一个流处理系统,本文中描述了它的基本测试性能(包括吞吐量和处理延迟)以及测试结果的简要分析测试目的转载 2013-12-27 16:41:59 · 7081 阅读 · 1 评论 -
strom及DRPC性能测试与改进
针对不同大小的数据,对Storm中DRPC延迟进行测试。同时提出了一些改进方法。原创 2014-01-10 15:26:00 · 3863 阅读 · 0 评论 -
storm配置:设置worker进程内存大小
Storm中真正干活的是各个worker,而worker由supervisor负责启动。在topology启动过程中我们会看到如下的启动日志:这就是启动一个worker进程,也就是一个JVM进程。默认情况下,Storm启动worker进程时,JVM的最大内存是768M。但我在使用过程中,由于会在Bolt中加载大量数据,768M内存无法满足需求,会导致内存溢出程序原创 2013-12-20 13:46:22 · 14740 阅读 · 0 评论 -
Storm 多语言支持之ShellBolt原理及改进
Storm是一个实时分布式流处理框架,现在正被越来越多的人使用。众所周知,Storm是一个Java平台,这就给我们的使用带来了一个问题:我们在实际工作中很少从0开始,往往是在一些已有的基础执行进行开发,而如果我们已有的基础程序不是Java平台而是C/C++,python等,如何将其移植到Storm中运行呢?为了解决这个问题,Storm本身提出了ShellBolt,用于支持由不同语言便编写的程序在Storm平台中运行。原创 2014-01-02 11:58:30 · 5287 阅读 · 2 评论 -
Storm Akka Finagle对比及使用场景分析
本文翻译自:http://blog.samibadawi.com/2013/04/akka-vs-finagle-vs-storm.htmlBy jmppok at 2013.12.12Storm Akka Finagle对比及使用场景分析1 概述Storm、Akka、Finagle是三个开源的分布式并行处理框架,都基于JVM运行。他们在解决下面这些问题上十翻译 2013-12-12 16:16:33 · 9242 阅读 · 7 评论 -
Storm弹性计算:实时调整Topology并发数
原创文章,如需转载,请注明出处:Storm计算以topology为单位,topology提交到Storm集群中运行后,通过storm rebalance 命令可对topology进行动态调整。比如增加Topology的worker数,修改Bolt,Spout的并行执行数量 parallelism等,从而实现topology的动态调整,达到弹性计算的目的。(当然调整时要配合监控模块)原创 2013-12-05 16:34:04 · 3723 阅读 · 0 评论 -
翻译:Storm Scalable ——Storm弹性计算
原文地址:http://storm-project.net/about/scalable.html,内容如下:Storm topologies are inherently parallel and run across a cluster of machines. Different parts of the topology can be scaled individually b翻译 2013-12-05 15:09:12 · 1889 阅读 · 0 评论 -
Storm0.8.2新特性:topology隔离(Isolation Scheduler)
原创文章,如需转载请注明出处:Storm0.8.2中退出了新的特性:topology隔离。Storm官方称之为“Isolation Scheduler”。官方说明说下:也就是说,在Storm0.8.2中,可以为Topology配置单独隔离的N个节点来运行这个topology,这N个节点上只运行指定的某个Topology,不会与其它Topology共享。而且更进一步,原创 2013-12-05 15:37:17 · 3322 阅读 · 2 评论 -
转自淘宝的storm简介
场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一副泳转载 2013-11-12 14:09:10 · 1318 阅读 · 0 评论 -
在Strom中使用C++开发Bolt总结
1.Storm简介Storm是Twitter开源的一套并行处理系统,网站主页:https://github.com/nathanmarz/storm/wiki其思想与Hadoop类似,但也与Hadoop有本质区别:Hadoop主要偏重批处理,Storm主要面向实时处理, 与Storm类似的系统还有Puma 、S4等。2.为什么使用C++开发Storm BoltSto原创 2013-11-19 18:10:59 · 8328 阅读 · 1 评论 -
storm rebalance 命令调整topology并行数及问题分析
原创文章,欢迎转载.转载请注明出处: 通过前面的介绍,我们知道Storm可以实现弹性计算,根据需要实时调整Topology的并行度.1)翻译:Storm Scalable ——Storm弹性计算2)Storm弹性计算:实时调整Topology并发数关于topology执行时并行度,topology状态,topology执行原理等,可以参考下面这些文章:1)Understanding the Parallelism of a Storm Topology2) Storm 中Topol原创 2013-12-10 14:48:34 · 11298 阅读 · 2 评论 -
Storm中Topology的状态
Twitter Storm中Topology的状态状态转换如下,Topology 的持久化状态包括: active, inactive, killed, rebalancing 四个状态。代码上看到每种状态都可以转换成一些持久化 ( 写入到 zk 中的状态 ) 或者中间状态。Java代码 (defn state-transitions [nimbus storm-转载 2013-12-09 21:38:42 · 3623 阅读 · 0 评论 -
storm 简介及单机版安装指南
转载:http://www.open-open.com/lib/view/open1374979211233.html本文翻译自: https://github.com/nathanmarz/storm/wiki/TutorialStorm是一个分布式的、高容错的实时计算系统。Storm对于实时计算的的意义相当于Hadoop对于批处理的意义。Hadoop为我们提供了Ma转载 2013-11-12 18:25:15 · 1299 阅读 · 0 评论 -
Storm原理与实现
Storm原理与实现 转自徐明明的blog:http://xumingming.sinaapp.com/作者:phylips@bmy 2013-021 Storm简介1.1 简介本文主要是从内部实现的角度来认识下Storm(0.7.1版本),因此需要用户对Storm的基本原理和使用具有一定的了解。如果缺乏这方面转载 2013-11-14 14:32:34 · 2089 阅读 · 0 评论 -
Storm 实时性分析
1.相比Hadoop,Storm是为实时处理而设计的;2.Storm的Topology启动后,一直处理就绪状态,等待数据输入,一旦有数据会立即处理;这一点不同于Hadoop,Hadoop每处理一个Job都需要重新提交,而且对于实时到来的数据也无法立即处理。“Storm中流动的是数据,Hadoop中流动的是代码”,这个说法很精辟。3.Storm在处理过程中基于Stream,不写文件和数据库,而且使用ZeroMQ传递消息(传说中最快的MQ),所以处理速度很快,自然也提高了实时性;4.翻译上面的英文:原创 2013-11-20 15:57:21 · 3398 阅读 · 0 评论 -
[2]Storm Bug Fix:supervisor {taskid} still hasn't started
原创文章,欢迎转载。转载请注明出处:1.问题描述在Storm中提交Topology后,一直处于分派状态,查看Supervisor日至,显示2013-12-02 14:49:52 supervisor [INFO] 46b25fa5-b333-4985-9c1d-3f112d5c615a still hasn't started2013-12-02 14:49:52 super原创 2013-12-02 15:06:46 · 7519 阅读 · 2 评论 -
Storm 中Topology的并发度的理解 (2)
原文地址:http://blog.csdn.net/derekjiang/article/details/9040243主要思想来源于storm的项目页面: https://github.com/nathanmarz/storm/wiki/Understanding-the-parallelism-of-a-Storm-topology其中加入了一些个人的理解,所以就把文章mark转载 2013-12-10 14:58:52 · 2049 阅读 · 0 评论 -
Storm 中Topology的并发度的理解 (1)
原文地址:http://www.cnblogs.com/fxjwind/archive/2013/05/04/3059514.html英文地址:https://github.com/nathanmarz/storm/wiki/Understanding-the-parallelism-of-a-Storm-topology概念一个Topology可以包含一个或多个worker(转载 2013-12-10 14:57:35 · 2244 阅读 · 1 评论 -
使用Storm实现实时大数据分析
摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获转载 2013-12-09 21:43:22 · 2624 阅读 · 2 评论 -
Storm Trident简介
转载自:[翻译][Trident] Storm Trident 教程英文原址:https://github.com/nathanmarz/storm/wiki/Trident-tutorial----------------Trident是在storm基础上,一个以realtime 计算为目标的高度抽象。 它在提供处理大吞吐量数据能力的同时,也提供了低延时分布式查询和有状态流式转载 2013-11-20 14:11:17 · 1756 阅读 · 0 评论 -
【Storm总结-1】Storm 简介 -- 转一个我认为总结的比较好的介绍 .
转自: http://www.cnblogs.com/fxjwind/archive/2013/05/03/3057037.html-----------------安装和配置Storm的安装比较简单, 下载storm的release版本, 解压, 并且把bin/目录加到环境变量PATH里面去, 就ok了. 参考配置storm开发环境 当然为了运行Storm, 需要装一些其他的转载 2013-11-20 13:49:52 · 1742 阅读 · 0 评论 -
Clojure入门教程
Clojure入门教程: Clojure – Functional Programming for the JVM中文版发表于 2011 年 12 月 07 日 由xumingming作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/302/cl转载 2013-11-14 13:44:14 · 4103 阅读 · 0 评论 -
Strom 可定制任务调度策略(Pluggable Scheduler)
Twitter Storm的新利器Pluggable Scheduler发表于 2012 年 05 月 21 日 由xumingming作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/854/twitter-storm-pluggable-sc转载 2013-11-14 14:36:46 · 2131 阅读 · 0 评论 -
Storm DRPC 使用及访问C++ Bolt问题的解决方法
原创文章,欢迎转载,转载请注明出处:参考1:storm下运行C++程序(一)参考2:Storm下运行C++(二)参考3:在Strom中使用C++开发Bolt总结参考4:Storm DRPC 使用方法:1)根据[参考2]介绍,实现C++的Bolt; 其中storm.h 和 storm.cpp可从其中下载。JsonCPP可从官方下载编原创 2013-11-20 10:57:44 · 4829 阅读 · 2 评论 -
Storm DRPC 使用
欢迎转载,请注明出处:1. DRPC介绍Storm是一个分布式实时处理框架,它支持以DRPC方式调用.可以理解为Storm是一个集群,DRPC提供了集群中处理功能的访问接口.其实即使不通过DRPC,而是通过在Topoloye中的spout中建立一个TCP/HTTP监听来接收数据,在最后一个Bolt中将数据发送到指定位置也是可以的。这是后话,后面再进行介绍。而DPRC则是St原创 2013-11-20 10:18:31 · 18853 阅读 · 0 评论 -
Storm下运行C++(二)
本文为简单翻译,原文地址:http://demeter.inf.ed.ac.uk/cross/stormcpp.html欢迎转载,转载时请注明出处:可参考:storm下运行C++程序(一)http://blog.csdn.net/jmppok/article/details/15501947作者实现了一个Storm的C++ Wrapper,开发人员可以使用该Wr翻译 2013-11-19 19:05:58 · 4973 阅读 · 4 评论 -
Strom Topology执行分析:worker数,Bolt实例数,executor数,task数
原创文章,转载请注明出处:在创建Storm的Topology时,我们通常使用如下代码:builder.setBolt("cpp", new CppBolt(), 3).setNumTasks(5).noneGrouping(pre_name);Config conf = new Config();conf.setNumWorkers(3);参数1:bolt名称原创 2013-12-10 15:23:31 · 9167 阅读 · 5 评论 -
Understanding the Parallelism of a Storm Topology
Understanding the Parallelism of a Storm TopologyOct 16th, 2012 Table of ContentsWhat is Storm?What makes a running topology: worker processes, executors and tasksConfiguring the parallelism o转载 2013-12-10 15:05:22 · 1886 阅读 · 0 评论 -
Hadoop + storm = summingbird
Twitter 推出一个开源系统,旨在减低批处理和流式处理之间的交换,做法是把二者组合在一起成为一个混合系统。Twitter 用Hadoop做批处理,用Storm做流式处理,混合系统称为Summingbird。此类混合系统实际上越来越常见,很多公司认识到他们没办法单靠Hadoop在实时世界生存。我们以前报道过不少公司——其中有Gravity,LinkedIn和Netflix——他们转载 2013-11-12 15:34:07 · 1790 阅读 · 0 评论