RDD模型经典论文:
https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf
spark最好用scala语言
一个scala学习较好的网站
http://zh.scala-tour.com/#/welcome
spark常用api使用示例
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html
spark的核心是RDD.通过将数据进行IN_MEMORY操作提速。
尝试了一下,速度真的是非常快。可以用非常简洁的语言实现map-reduce中的若干操作。
写完spark程序在本地调通后,恭喜你,不过这仅仅只是一个开始。还需要在集群上进行调试优化,最终程序才能取得较高的性能。