spark数据分析
Spark是一个新兴的大数据分析解决方案,旨在使用内存处理实现高效的群集计算。 它的目标使用模型包括那些包含迭代算法的模型(即那些可以从将数据保留在内存中而不是推送到更高延迟的文件系统中受益的模型)。 在完成这些练习之前,请确保您完全了解用于集群计算的Spark方法及其与Hadoop的区别。 在最近的配套文章Spark中了解Spark的背景和用法,Spark 是快速数据分析的替代方法 。
总览
这些练习可为您提供以下方面的练习:
- 安装和试用Scala语言
- 了解Scala集合
- 安装Spark并运行您的第一份工作
- 通过多线程提高性能
- 通过配置提高性能
先决条件
这套练习需要Linux®的一些基本知识,包括安装新应用程序的能力。 了解Scala语言是有益的,但不是必需的。 您必须按顺序执行这些练习,因为它们说明了必要软件包的安装。
练习1:安装和试用Scala语言
首先安装Scala语言。 根据您的平台,安装Scala的过程会有所不同。 在最坏的情况下,您可以下载源代码树并执行构建和安装。
安装完毕后,启动斯卡拉解释(本文的姊妹篇,“星火,用于快速数据分析替代方案,”在展示相关信息 ),尝试一些例子(从人数1至3 ),并确认结果。
练习2:了解Scala集合
Scala的一个有趣功能是它的集合库。 Scala中的集合是零个其他事物的容器,例如列表,集合或地图。 这个概念与Spark有关,因为它的分布式数据集可以像本地集合一样进行操作。 您可以在Scala 2.8 Collections API中了解有关Scala集合的更多信息。 仔细阅读本参考资料,以了解如何创建数组和列表集合。
执行以