内存迭代式计算Spark
文章平均质量分 82
maoxiao_jsd
这个作者很懒,什么都没留下…
展开
-
什么是Spark
概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习转载 2014-01-09 20:24:30 · 765 阅读 · 0 评论 -
Spark:大数据的“电光石火”
Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名,展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵和巧”。轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,2.0为22万行。一方面,感谢Scala语言的简洁和丰富表达力;另一方面,Spark很好转载 2014-01-09 20:03:43 · 957 阅读 · 0 评论 -
拥抱Spark,机遇无限——Spark Summit 2013精彩回顾
时光回拨到去年九月, UC Berkeley AMPLab的几个成员从硅谷风投Andreessen Horowitz融资成立了Databricks公司,志在从Apache Spark开始,打造一系列工具和平台,从而更快、更方便地从大数据中挖掘有价值的信息。公司成立不久团队成员便着手组织第一届的Spark峰会,会议的组织和宣传只用了两个多月。Spark今年的发展势头很猛,当Databrick转载 2014-01-14 09:47:03 · 707 阅读 · 0 评论 -
Yahoo的Spark实践,下一代Spark调度器Sparrow
Yahoo的Spark实践Yahoo是大数据巨头中对Spark最情有独钟的一家。这次峰会,Yahoo贡献了三个演讲,让我们一一道来。Andy Feng是从浙大走出来的Yahoo杰出架构师,他的主题演讲试图回答两个问题。第一个问题,为什么Yahoo爱上Spark?当Yahoo的内容从编辑选择变成数据驱动的、上下文敏感的、个性化的页面时,机器学习、数据科学是盖子下面的引擎。技术转载 2014-01-14 09:48:11 · 2085 阅读 · 2 评论