- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 jstorm的acker机制
JStorm/storm可以保证从spout发出的每条消息可以被完全处理,什么叫完全处理?为了帮助理解,我们参考storm官网的几张图和例子说明这个原理,下面是个wordCount的例子,我们从spout发出来一条消息,这个消息就是一行文字,被下游的bolt切分处理,加工,然后再往后发,count bolt统计每个单子计数。TopologyBuilder builder = new
2016-02-23 16:16:01 4864
原创 Kafka 0.9.0 文档翻译-1、Getting Started
kafka目前应用比较广泛,中小规模的公司都把kafka当做大数据平台的数据总线,成为很多流计算系统的输入源,比如storm,flink,spark-streaming等。同时各种应用的日志做离线处理的时候,架构上倾向于使用kafka作为消息管道,日志push到kafka,然后使用分布式task将数据写入hdfs等,诸如此类的应用还有很多,这些正说明kafka有不错的高吞吐低延时性能。一些大的公司
2016-02-21 17:14:21 1206 1
原创 如何简单地测算系统吞吐量
在流计算、数据传输之类的系统中,有时候需要统计、压测下一下系统的吞吐能力,这里写了一段简单实现记录一下,方便以后使用,构造参数有两个,一个是name,用于区分,一个是采样周期。发送或者接收代码中调用update方法即可public class ThroughputProbe extends TimerTask { private static Logger log
2016-02-19 16:49:12 2313
原创 批量数据的聚合以及groupby实现
大家一定对sql非常熟悉,关系型数据库自不必说,现在越来越多的大数据系统也都支持sql,比如hive,odps ,presto,phoenix(hbase),galaxy 以及cep(esper)等都支持sql,或者类sql语言。sql语言更接近自然语言,让人非常容易理解,上手也比较方便,可以有效降低系统的入门门槛。很多大数据系统都用antlr来实现sql,antlr帮助我们实现sql语法解析和编
2016-02-19 16:30:15 4332
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人