分布式
iteye_19694
这个作者很懒,什么都没留下…
展开
-
spark 0.6.0发布了
在互联网的各种数据处理,分析中,经常要用到迭代式的计算;而相关的开源框架都还不大成熟,spark([url]http://www.spark-project.org[/url])还算是其中较为可行的方案之一,它在上周发布了0.6.0版本。 相对于0.5.0, 新版本的主要改进如下: [list] [*] 提供了一种新的部署方式,原先在部署运行时有本地模式和依赖于mesos的分布式模式...原创 2012-10-22 10:35:00 · 120 阅读 · 0 评论 -
迭代计算的一些开源框架
迭代计算是一种通过多次循环得出结果的计算方式,一般需要将上一次计算的结果代入到下一步的计算中去。当计算数据和计算规模都比较小时,可以在单机上实现计算过程;但是当数据集变大或者计算复杂度上升时,在单机上就可能无法完成计算了。在互联网企业中,各种数据挖掘,信息检索等计算用例,由于抽取的数据集较大,往往都是进行分布式的迭代计算。 MapReduce框架能够很好的处理大规模的数据计算,但是在实...原创 2012-10-23 15:12:29 · 343 阅读 · 0 评论