2014 Spark美国峰会上几大顶级数据商精彩PPT分享

最新推荐文章于 2024-04-23 18:44:03 发布

sunrain988

最新推荐文章于 2024-04-23 18:44:03 发布

阅读量4.2k

点赞数 1

分类专栏： IT信息文章标签：云计算平台数据科学家数据中心分布式数据分析

IT信息专栏收录该内容

6 篇文章 0 订阅

订阅专栏

http://www.csdn.net/article/2014-07-03/2820516/1

2014 Spark美国峰会上几大顶级数据商精彩PPT分享

发表于 2014-07-03 17:31| 7155次阅读| 来源 CSDN| 21 条评论| 作者魏伟

大数据 Spark Summit Cloudera Databricks MapR Hortonworks Spark

allowtransparency="true" frameborder="0" scrolling="no" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2014-07-03%2F2820516%2F1&type=3&count=&appkey=&title=2014%E5%B9%B4Spark%20Summit%E4%BA%8E6%E6%9C%8830%E6%97%A5%E8%87%B37%E6%9C%882%E6%97%A5%E5%9C%A8%E7%BE%8E%E5%9B%BD%E6%97%A7%E9%87%91%E5%B1%B1%E4%B8%BE%E8%A1%8C%E3%80%82%E6%9D%A5%E8%87%AA%E4%BD%BF%E7%94%A8Spark%E7%9A%84%E4%B8%80%E7%BA%BF%E6%8A%80%E6%9C%AF%E5%85%AC%E5%8F%B8%E5%8F%8A%E4%B8%93%E5%AE%B6%E6%B1%87%E8%81%9A%E4%B8%80%E5%A0%82%EF%BC%8C%E5%85%B1%E5%90%8C%E6%8E%A2%E8%AE%A8%E7%9B%AE%E5%89%8DSpark%E5%9C%A8%E4%BC%81%E4%B8%9A%E7%9A%84%E8%90%BD%E5%9C%B0%E6%83%85%E5%86%B5%E5%8F%8A%E6%9C%AA%E6%9D%A5Spark%E7%9A%84%E5%8F%91%E5%B1%95%E6%96%B9%E5%90%91%E5%92%8C%E9%81%AD%E9%81%87%E7%9A%84%E6%8C%91%E6%88%98%EF%BC%8C%E6%88%91%E4%BB%AC%E6%B1%87%E6%80%BB%E4%B8%80%E4%BA%9B%E7%B2%BE%E5%BD%A9PPT%E5%88%86%E4%BA%AB%E7%BB%99%E5%A4%A7%E5%AE%B6%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1404876959255" width="22" height="16"> 摘要：2014年Spark Summit于6月30日至7月2日在美国旧金山举行。来自使用Spark的一线技术公司及专家汇聚一堂，共同探讨目前Spark在企业的落地情况及未来Spark的发展方向和遭遇的挑战，我们汇总一些精彩PPT分享给大家。

2014年Spark Summit于6月30日至7月2日在美国旧金山举行。Spark、Shark以及相关项目的主要用户聚集一地，共同探讨Spark项目开发方向以及实践经验。

Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。Spark非常小巧玲珑，由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala，项目的核心部分的代码只有63个Scala文件，非常短小精悍。 Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，它们使 Spark 在某些工作负载方面表现得更加优，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

免费订阅“CSDN云计算”微信公众号，实时掌握第一手云中消息！

CSDN作为国内最专业的云计算服务平台，提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、Hadoop、Spark、机器学习、智能算法等相关云计算观点，云计算技术，云计算平台，云计算实践，云计算产业资讯等服务。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。目前 50 +公司正在为这个项目贡献代码，每年的Spark 峰会都是我们学习大数据知识的绝好的机会，这里有来自UC伯克利以及一些使用Spark的著名公司，比如Databricks、Cloudera 、 MapR、DataStax等。Spark Summit一共三天，第一天、第二天是一些主题演讲，第三天是Databricks提供的Spark培训。我们精选了一些精彩的PPT分享给大家。

1. Databricks公司联合创始人兼现任CTO Matei Zaharia： Spark在大数据生态系统中的地位

Matei Zaharia是加州大学伯克利分校AMP实验室博士研究生，Databricks公司的联合创始人兼现任CTO。Zaharia致力于大规模数据密集型计算的系统和算法。研究项目包括：Spark、Shark、Multi-Resource Fairness、MapReduce Scheduling、SNAP Sequence Aligner，这次spark 峰会上他主要就 Spark的现状和未来做了详细的阐述。

height="500" width="100%" scrolling="no" src="http://share.csdn.net/frame/5739" frameborder="0" allowfullscreen="">

2. 加州大学伯克利AMP实验室主任Mike Franklin：Berkeley数据分析的未来

Mike Franklin是加州大学伯克利AMP实验室主任， AMPLab是Berkeley Data Analytics Stack （BDAS）和Spark的发源地，作为BDAS的核心组件，获得了24家顶尖的IT公司的支持。在这次演讲中，我将分享伯克利未来BDAS的研究方向以及目前正在进行的一些研究项目，如机器学习、数据和模型服务。

height="500" width="100%" scrolling="no" src="http://share.csdn.net/frame/5755" frameborder="0" allowfullscreen="">

3.DataStax工程执行副总裁 Martin Van Ryswyk：Spark 和 Cassandra

Apache Cassandra是领先的分布式数据库，能够满足世界上成千上万对可伸缩性和可用性最为苛刻的网站需求。这个演讲简要概述Cassandra，以及目前DataStax及DataStax合作伙伴的状态，另外还将分享两家使用Spark和Cassandra成功经验的例子。 height="400" width="100%" scrolling="no" src="http://share.csdn.net/frame/5740" frameborder="0" allowfullscreen="">

4. Cloudera 联合创始人兼首席战略官Mike Olson：Apache Spark在企业数据分析的作用

Mike Olson是Cloudera 的联合创始人，并担任首席执行管直到2013年，然后开始了他的首席战略官生涯。主要负责Cloudera的产品策略、开源的领导以及与用户的对接。Mike还在Oracle公司担任过2年的嵌入式技术副总裁。此次峰会上他主要就Spark在企业中的作用以及Cloudera和Intel的合作做了相关解读。

height="400" width="100%" scrolling="no" src="http://share.csdn.net/frame/5751" frameborder="0" allowfullscreen="">

5. SAP平台战略实施副总裁Aiaz Kazi： 交付大数据的企业级架构

Aiaz Kazi是SAP公司的平台战略实施副总裁，他负责平台技术、商业策略、平台采用、新平台计划。他的工作主要围绕SAP HANA、SAP HANA云平台、SAP HANA市场以及所有SAP产品的投资组合，包括内存技术、移动、分析、用户体验、集成和应用程序开发。

height="400" width="100%" scrolling="no" src="http://share.csdn.net/frame/5750" frameborder="0" allowfullscreen="">

6. Hortonworks CTO Eric Baldeschwieler：Spark和大数据应用程序的未来

Eric Baldeschwieler是专业大数据顾问。他是Hortonworks的创始CEO和后来的首席技术官。他创立并领导雅虎团队，将Apache Hadoop从原型发展到企业级技术，从而是Hadoop才有了如今的广泛使用。曾经他是雅虎和Inktomi网络搜索工程团队的领袖级人物。此次的演讲他主要分析了为什么Spark是最好的选择以及它为什么会是当下应用程序更好的平台。

height="500" width="100%" scrolling="no" src="http://share.csdn.net/frame/5749" frameborder="0" allowfullscreen="">

本文为CSDN原创文章，未经允许不得转载，如需转载请联系market#csdn.net(#换成@)

7. Conviva联合创始人 Ion Stoica：Apache Spark与 Databricks

Ion Stoica是UC Berkeley计算机教授，Conviva共同创始人，目前是Databricks的CEO。弹性P2P协议Chord、集群内存计算框架Spark、集群资源管理平台Mesos都出自他。这次在Spark峰会上的演讲主题是Databricks的发展以及Databricks云。
height="500" width="100%" scrolling="no" src="http://share.csdn.net/frame/5761" frameborder="0" allowfullscreen="">

8. MapR 科技联合创始人兼CTO M.C. Srivas ：Spark和Hadoop的集成

M.C. Srivas在Google搜索基础设施团队工作了2年，在2009年夏天他选择离开了Google，并创建了公司——MapR。MapR也采用了Google基础设施背后优秀的设计思想（Google GFS和MapReduce），并提供大数据处理的业务。他的演讲主要是关于MapR的数据平台架构和Hadoop和Spark如何集成并最终为终端用户提供最完美的体验。

height="400" width="100%" scrolling="no" src="http://share.csdn.net/frame/5754" frameborder="0" allowfullscreen="" style="color: rgb(51, 51, 51); font-family: Helvetica, Tahoma, Arial, sans-serif; font-size: 14px; line-height: 24px; ">

9. Databricks创始人Patrick Wendell：Spark的未来

Databricks创始人Patrick Wendell：毕业于加州大学伯克利分校计算机科学系，专注于大规模数据密集型计算。致力于Spark的性能基准测试，同时是spark-perf的合著者。此次峰会他的演讲主题是“Spark的未来”

height="500" width="100%" scrolling="no" src="http://share.csdn.net/frame/5741" frameborder="0" allowfullscreen="" style="color: rgb(51, 51, 51); font-family: Helvetica, Tahoma, Arial, sans-serif; font-size: 14px; line-height: 24px; ">

10. Cloudera公司数据科学家Sandy Ryza：Spark on YARN

Cloudera公司高级软件工程师及Hadoop提交者Sandy Ryza主要致力于云计算架构Hadoop（MapReduce和 YARN）的资源管理。还为大数据集和POC设计机器学习工具，同时建立Monte Carlo simulations 和 NLP pipelines。此次峰会上他的演讲主题是“Spark on YARN”

height="500" width="100%" scrolling="no" src="http://share.csdn.net/frame/5738" frameborder="0" allowfullscreen="" style="color: rgb(51, 51, 51); font-family: Helvetica, Tahoma, Arial, sans-serif; font-size: 14px; line-height: 24px; ">

11. 雅虎实验室高级研究员Hirakendu Das：Spark MLLib上的分布式决策树
height="500" width="100%" scrolling="no" src="http://share.csdn.net/frame/5734" frameborder="0" allowfullscreen="">

12. IBM硅谷实验室高级工程师Dimple Bhatia ：IBM的在Apache Spark上的文本分析

height="500" width="100%" scrolling="no" src="http://share.csdn.net/frame/5732" frameborder="0" allowfullscreen="" style="color: rgb(51, 51, 51); font-family: Helvetica, Tahoma, Arial, sans-serif; font-size: 14px; line-height: 24px; ">