在互联网的各种数据处理,分析中,经常要用到迭代式的计算;而相关的开源框架都还不大成熟,spark([url]http://www.spark-project.org[/url])还算是其中较为可行的方案之一,它在上周发布了0.6.0版本。
相对于0.5.0, 新版本的主要改进如下:
[list]
[*] 提供了一种新的部署方式,原先在部署运行时有本地模式和依赖于mesos的分布式模式两种,现在不依赖于mesos这种分布式集群管理框架也可以分布式运行了;
[*] 提供了一套JAVA API,可以使用java直接编写spark计算任务了,对于那些不想学写scala的是一种福音;但是相对的,任务代码要繁复一些了。不知道神码时候可以为c++程序员考虑下出个spark pipes
[*] 文档方面的完善,完善了 quick start guide, 部署,配置等文档
[*] 性能的提升,貌似要支持[b]实时数据[/b]的处理了
[/list]
相对于0.5.0, 新版本的主要改进如下:
[list]
[*] 提供了一种新的部署方式,原先在部署运行时有本地模式和依赖于mesos的分布式模式两种,现在不依赖于mesos这种分布式集群管理框架也可以分布式运行了;
[*] 提供了一套JAVA API,可以使用java直接编写spark计算任务了,对于那些不想学写scala的是一种福音;但是相对的,任务代码要繁复一些了。不知道神码时候可以为c++程序员考虑下出个spark pipes
[*] 文档方面的完善,完善了 quick start guide, 部署,配置等文档
[*] 性能的提升,貌似要支持[b]实时数据[/b]的处理了
[/list]