YAOCHITC-CSDN博客

storm笔记进程内和进程间emit的区别

我们都知道，storm当中，对于进程内的task通信，和进程间的通信使用的是不同的机制。进程间的通信使用的是nio（目前默认是netty），而进程内的通信使用的是disruptor做线程间共享。当我们emit一条消息时，是没有办法知道消息会被发送到什么地方去的，所以这个区别理论上是对上层开发者透明的。但是实际上，这两种情况对应用的开发还是有影响的，这里记录下本人发现的几点问题： 1...

2014-12-01 21:28:49 451

原创 storm笔记与kafka的集成

storm与kafka的结合，即前端的采集程序将实时数据源源不断采集到队列中，而storm作为消费者拉取计算，是典型的应用场景。因此，storm的发布包中也包含了一个集成jar，支持从kafka读出数据，供storm应用使用。这里结合自己的应用做个简单总结。由于storm已经提供了storm-kafka，因此可以直接使用，使用kafka的低级api读取数据。如果有需要的话，自己实...

2014-10-21 21:17:03 319

原创 storm笔记 spout和bolt

storm是twitter开源的实时计算框架，从架构上来说，和hadoop有些相似，但是有别于mapreduce的处理模型，storm采用数据流（stream）模型，因而更适合实时数据的处理。以上是官方网站上提供的图示，storm的处理模型有点类似自来水。水龙头的部分是数据产生器（spout），中间流经的各个节点（bolt）对数据进行分阶段处理。这个模型有点类似以前接触过的过...

2014-07-26 20:05:51 1419

原创 crdt学习笔记（1）简介

随着大数据时代的到来，对于数据并发处理的要求也越来越高。在传统的数据库模型中，crud操作必须依赖事务和锁来保证一致性。但是CAP原则告诉我们，这样的一致性是以严重牺牲可用性为代价的。为了实现更高的可用性，分布式的数据库系统成为了必然选择。但是，如果不能真正支持多节点并发读写（尤其是写入），而是仅仅是将数据存储到多个节点上，是远远不能满足高可用性场景的要求的。然而，要想实现高可...

2014-03-31 21:11:17 486

Mahout学习笔记（一）

一.简介 Mahout是apache下的一个机器学习库，单从名字来看（象夫），与hadoop的基情就一目了然，而它也的确是以hadoop作为运行环境的。刚开始Mahout是Lucene（搜索引擎的童鞋应该比较熟吧）的子项目，后来独立出来，成为了apache的顶级项目，由此大概可以窥见机器学习的广阔前景了。二.构成 Mahout主要关注3个部分：推...

2013-11-07 10:44:04 192

DirectX中文手册

directx中文入门手册，让你对directx有个初步了解

2009-05-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

storm笔记 进程内和进程间emit的区别

原创 storm笔记 与kafka的集成