- 博客(5)
- 资源 (1)
- 收藏
- 关注
storm笔记 进程内和进程间emit的区别
我们都知道,storm当中,对于进程内的task通信,和进程间的通信使用的是不同的机制。进程间的通信使用的是nio(目前默认是netty),而进程内的通信使用的是disruptor做线程间共享。当我们emit一条消息时,是没有办法知道消息会被发送到什么地方去的,所以这个区别理论上是对上层开发者透明的。但是实际上,这两种情况对应用的开发还是有影响的,这里记录下本人发现的几点问题: 1...
2014-12-01 21:28:49 451
原创 storm笔记 与kafka的集成
storm与kafka的结合,即前端的采集程序将实时数据源源不断采集到队列中,而storm作为消费者拉取计算,是典型的应用场景。因此,storm的发布包中也包含了一个集成jar,支持从kafka读出数据,供storm应用使用。这里结合自己的应用做个简单总结。 由于storm已经提供了storm-kafka,因此可以直接使用,使用kafka的低级api读取数据。如果有需要的话,自己实...
2014-10-21 21:17:03 319
原创 storm笔记 spout和bolt
storm是twitter开源的实时计算框架,从架构上来说,和hadoop有些相似,但是有别于mapreduce的处理模型,storm采用数据流(stream)模型,因而更适合实时数据的处理。 以上是官方网站上提供的图示,storm的处理模型有点类似自来水。水龙头的部分是数据产生器(spout),中间流经的各个节点(bolt)对数据进行分阶段处理。这个模型有点类似以前接触过的过...
2014-07-26 20:05:51 1419
原创 crdt学习笔记(1) 简介
随着大数据时代的到来,对于数据并发处理的要求也越来越高。在传统的数据库模型中,crud操作必须依赖事务和锁来保证一致性。但是CAP原则告诉我们,这样的一致性是以严重牺牲可用性为代价的。为了实现更高的可用性,分布式的数据库系统成为了必然选择。 但是,如果不能真正支持多节点并发读写(尤其是写入),而是仅仅是将数据存储到多个节点上,是远远不能满足高可用性场景的要求的。然而,要想实现高可...
2014-03-31 21:11:17 486
Mahout学习笔记(一)
一.简介 Mahout是apache下的一个机器学习库,单从名字来看(象夫),与hadoop的基情就一目了然,而它也的确是以hadoop作为运行环境的。刚开始Mahout是Lucene(搜索引擎的童鞋应该比较熟吧)的子项目,后来独立出来,成为了apache的顶级项目,由此大概可以窥见机器学习的广阔前景了。 二.构成 Mahout主要关注3个部分:推...
2013-11-07 10:44:04 192
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人