MapReduce
hzx2001
后台开发;目前主要专注于:分布式网络系统、大容量高性能数据存储系统
展开
-
关于Mepreduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。核心概念:map(映射): 一个映射函数就是对一些独立元素组成的概念上的列表的操作。reduce(化简)::对一个列表的元素进行适当的合并。相关实现:1 Hadoop2 Phoenix 斯坦福大学开发的基于多核/多处理器、共享内存的MapReduce实现.原创 2012-12-31 11:21:46 · 394 阅读 · 0 评论 -
分布式系统中如何确保消息及衍生消息被处理过?
最近在开发数据分析系统中,学习和参考了Twitter Storm源码。发现了很多宝贝,其中对于消息(tuple)的跟踪甚为巧妙。原创 2013-03-07 06:48:03 · 299 阅读 · 0 评论 -
Strom 安装常见错误
1. 发布topologies到远程集群时,出现Nimbus host is not set异常原因是Nimbus没有被正确启动起来,可能是storm.yaml文件没有配置,或者配置有问题。解决方法:打开storm.yaml文件正确配置:nimbus.host: "xxx.xxx.xxx.xxx",重启nimbus后台程序即可。 2. 发布topologies到远程集群时,出现Alre转载 2013-04-03 06:38:58 · 415 阅读 · 0 评论