- 博客(5)
- 资源 (4)
- 收藏
- 关注
原创 NoSQL数据库的分布式算法
本文译自 Distributed Algorithms in NoSQL Databases 系统的可扩展性是推动NoSQL运动发展的的主要理由,包含了分布式系统协调,故障转移,资源管理和许多其他特性。这么讲使得NoSQL听起来像是一个大筐,什么都能塞进去。尽管NoSQL运动并没有给分布式数据处理带来根本性的技术变革,但是依然引发了铺天盖地的关于各种协议和算法的研究以及实践。正是通过...
2012-11-09 16:28:57 260
原创 HDFS的Rebalance功能
HDFS中的数据按照一定策略分布在集群中的多个数据节点上,但在某些情况下,数据的分布也会出现不均衡的情况,比如说集群新增加了节点,在新增加的节点上就没有数据存在,虽说之后新增的数据会分配到新节点上,不过,对于已有数据,新节点和原有节点上的分布很不均衡,而且这还会导致在分配MapReduce任务的时候新机器分配不到可执行的任务分配,白白浪费了新增节点的计算能力。而对于一个真实的生产环境来说,随...
2012-11-08 23:15:17 2638
大数据中的SMAQ技术
本文译自 The SMAQ stack for big data 所谓海量数据,是指数据的规模大到已经难以使用传统的方式来处理。最早面临这个问题的是网络搜索引擎,而如今,社会化网络,移动电话、各种传感器和科学计算每天增长数以PB计的数据。 围绕Google关于这方面的工作和Yahoo的Haoop中对MapReduce的实现,兴起了一个海量数据处理工具的生态系统。 随着MapReduce越...
2012-10-31 13:35:12 383
原创 MapReduce 模式、算法和用例
本文译自 Mapreduce Patterns, Algorithms, and Use Cases 在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers, Reduces, Combiners, Partitioners...
2012-10-31 13:19:29 345
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人