流计算
文章平均质量分 71
年轻的海员
专注大数据分布式计算,存储,消息系统等
展开
-
如何简单地测算系统吞吐量
在流计算、数据传输之类的系统中,有时候需要统计、压测下一下系统的吞吐能力,这里写了一段简单实现记录一下,方便以后使用,构造参数有两个,一个是name,用于区分,一个是采样周期。发送或者接收代码中调用update方法即可public class ThroughputProbe extends TimerTask { private static Logger log原创 2016-02-19 16:49:12 · 2301 阅读 · 0 评论 -
jstorm的acker机制
JStorm/storm可以保证从spout发出的每条消息可以被完全处理,什么叫完全处理?为了帮助理解,我们参考storm官网的几张图和例子说明这个原理,下面是个wordCount的例子,我们从spout发出来一条消息,这个消息就是一行文字,被下游的bolt切分处理,加工,然后再往后发,count bolt统计每个单子计数。TopologyBuilder builder = new原创 2016-02-23 16:16:01 · 4855 阅读 · 0 评论 -
jstorm的cgroup资源隔离机制
本文研究一下jstorm使用cgroup做资源隔离的情况,github有文档:https://github.com/alibaba/jstorm/wiki/%E8%B5%84%E6%BA%90%E7%A1%AC%E9%9A%94%E7%A6%BB这个文档告诉你怎么开启cgroup,但对于不太了解cgroup和jstorm细节的同学可能更有兴趣看一下到底是怎么隔离的。废话少说,你不是原创 2016-05-04 23:49:27 · 4136 阅读 · 0 评论 -
metrics小常识
Metrics,我们听到的太多了,熟悉大数据系统的不可能没听说过metrics,当我们需要为某个系统某个服务做监控、做统计,就需要用到Metrics。举个例子,一个图片压缩服务:每秒钟的请求数是多少(TPS)?平均每个请求处理的时间?请求处理的最长耗时?等待处理的请求队列长度?又或者一个缓存服务:缓存的命中率?平均查询缓存的时间?基本上每一个服务、应用都需要转载 2016-07-13 17:27:09 · 18244 阅读 · 0 评论 -
streamsets Data Collecotor启动流程分析
exec ${JAVA} -classpath ${BOOTSTRAP_CLASSPATH} ${SDC_JAVA_OPTS} com.streamsets.pipeline.BootstrapMain \ -mainClass ${SDC_MAIN_CLASS} -ap原创 2016-12-16 11:24:48 · 3502 阅读 · 0 评论 -
kafka的log存储是怎么设计的?
Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的),每个partition存储一部分Message。借用官方的一张图,可以直观地看到topic和partition的关系。partition是以文件的形式存储在文件系统中,比如原创 2017-02-10 14:04:28 · 1146 阅读 · 0 评论 -
mongoDB复制集维护和切换——内存限制
使用mongoDB是因为用到了graylog,部署运行2-3个月之后,发现mongoDB占用物理内存巨大,50G+,公司的数据架构居然质问我为什么不设置-Xmx堆内存大小,我尼玛只能呵呵醉了!简单说mongoDB似乎没有配置项可以限制使用物理内存,粗略理解mongoDB本身不管理内存块,而是全部交给操作系统,如何限制mongoDB内存呢?网上有说使用ulimit等,但是事实证明无效。应原创 2017-09-19 11:44:06 · 1432 阅读 · 1 评论