spark数据分析_使用Spark进行数据分析和性能

最新推荐文章于 2024-05-14 20:15:15 发布

cuxiong8996

最新推荐文章于 2024-05-14 20:15:15 发布

阅读量1.1k

点赞数

文章标签：大数据 python linux java spark

原文链接：https://www.ibm.com/developerworks/opensource/library/l-sparkdataanalysis/index.html

版权

spark数据分析

与蒂姆联系

蒂姆是我们最受欢迎和最多产的作家之一。在developerWorks上浏览Tim的所有文章。查看Tim的个人资料，并与他，其他作者以及developerWorks社区中的其他开发人员联系。

Spark是一个新兴的大数据分析解决方案，旨在使用内存处理实现高效的群集计算。它的目标使用模型包括那些包含迭代算法的模型（即那些可以从将数据保留在内存中而不是推送到更高延迟的文件系统中受益的模型）。在完成这些练习之前，请确保您完全了解用于集群计算的Spark方法及其与Hadoop的区别。在最近的配套文章Spark中了解Spark的背景和用法，Spark 是快速数据分析的替代方法。

总览

这些练习可为您提供以下方面的练习：

安装和试用Scala语言
了解Scala集合
安装Spark并运行您的第一份工作
通过多线程提高性能
通过配置提高性能

先决条件

这套练习需要Linux®的一些基本知识，包括安装新应用程序的能力。了解Scala语言是有益的，但不是必需的。您必须按顺序执行这些练习，因为它们说明了必要软件包的安装。

练习1：安装和试用Scala语言

首先安装Scala语言。根据您的平台，安装Scala的过程会有所不同。在最坏的情况下，您可以下载源代码树并执行构建和安装。

安装完毕后，启动斯卡拉解释（本文的姊妹篇，“星火，用于快速数据分析替代方案，”在展示相关信息），尝试一些例子（从人数1至3 ），并确认结果。

练习2：了解Scala集合

Scala的一个有趣功能是它的集合库。 Scala中的集合是零个其他事物的容器，例如列表，集合或地图。这个概念与Spark有关，因为它的分布式数据集可以像本地集合一样进行操作。您可以在Scala 2.8 Collections API中了解有关Scala集合的更多信息。仔细阅读本参考资料，以了解如何创建数组和列表集合。

执行以

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
spark数据分析_使用Spark进行数据分析和性能

与蒂姆联系蒂姆是我们最受欢迎和最多产的作家之一。在developerWorks上浏览Tim的所有文章。查看Tim的个人资料，并与他，其他作者以及developerWorks社区中的其他开发人员联系。 Spark是一个新兴的大数据分析解决方案，旨在使用内存处理实现高效的群集计算。它的目标使用模型包括那些包含迭代算法的模型（即那些可以从将数据保留在内存中而不是推送到更高延迟...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。