- 博客(4)
- 收藏
- 关注
原创 twitter storm的多语言组件(1)
Twitter Storm([url]https://github.com/nathanmarz/storm[/url])是一个分布式实时计算系统,作者使用clojure和java来编写系统;因此storm默认支持使用clojure和java来编写计算任务。但在系统设计和实现上,作者考虑到了各种跨语言的场景,因此也提供了使用其他非JVM语言编写storm任务的机制。 使用其他语言,如c+...
2012-11-08 15:42:02 112
原创 迭代计算的一些开源框架
迭代计算是一种通过多次循环得出结果的计算方式,一般需要将上一次计算的结果代入到下一步的计算中去。当计算数据和计算规模都比较小时,可以在单机上实现计算过程;但是当数据集变大或者计算复杂度上升时,在单机上就可能无法完成计算了。在互联网企业中,各种数据挖掘,信息检索等计算用例,由于抽取的数据集较大,往往都是进行分布式的迭代计算。 MapReduce框架能够很好的处理大规模的数据计算,但是在实...
2012-10-23 15:12:29 354
原创 spark 0.6.0发布了
在互联网的各种数据处理,分析中,经常要用到迭代式的计算;而相关的开源框架都还不大成熟,spark([url]http://www.spark-project.org[/url])还算是其中较为可行的方案之一,它在上周发布了0.6.0版本。 相对于0.5.0, 新版本的主要改进如下:[list][*] 提供了一种新的部署方式,原先在部署运行时有本地模式和依赖于mesos的分布式模式...
2012-10-22 10:35:00 132
原创 Jubatus: 分布式在线机器学习框架
Jubatus [url]http://jubat.us/en/overview.html[/url] 是一个面向大数据数据流的分布式在线机器学习的开源框架,和storm有些类似,但是从介绍上来看,它提供了更多的功能。 Jubatus认为未来的数据分析平台应该同时向三个方向展开:处理更大的数据,深层次的分析和实时处理;而当前还没有一种能够处理不断生成的流式大数据的水平可扩展的分布式架构。...
2012-10-22 10:01:42 322
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人