Spark是当前最流行的开源大数据内存计算框架,采用Scala语言实现,由UC伯克利大学AMPLab实验室开发(2009)并于2010年开源,在2014年成为Apache基金会的顶级项目。2014年至2015年,Spark经历了高速发展,Databricks 2015 Spark调查报告显示:2014年9月至2015年9月,已经有超过600个Spark源码贡献者,而在此之前的12个月人数只有315,Spark超越Hadoop,无可争议地成为大数据领域内最活跃的开源项目。除此之外,已经有超过200个公司为Spark奉献过源代码,使Spark社区成为迄今为止开发人员参与最多的社区。
本期程序员封面报道,带来了以下实践分享:
- Spark学习指南(周志湖,绿城集团数据中心平台架构师、数据开发主管)
- Streaming DataFrame:无限增长的表格(朱诗雄,Databricks软件开发工程师)
- 层次化存储:以高性价比终结Spark的I/O瓶颈(俞育才,英特尔大数据团队工程师)
- Spark在美团的实践(曾林西,李雪蕤,秦思源,毕岩,黄忠)
- 向Spark开炮:1.6版本问题总结与趟坑(岑玉海,滴滴出行数据架构工程师)
- Spark在蘑菇街的实践(马永刚,