spark数据分析_使用Spark进行数据分析和性能

spark数据分析

Spark是一个新兴的大数据分析解决方案,旨在使用内存处理实现高效的群集计算。 它的目标使用模型包括那些包含迭代算法的模型(即那些可以从将数据保留在内存中而不是推送到更高延迟的文件系统中受益的模型)。 在完成这些练习之前,请确保您完全了解用于集群计算的Spark方法及其与Hadoop的区别。 在最近的配套文章Spark中了解Spark的背景和用法,Spark 是快速数据分析的替代方法

总览

这些练习可为您提供以下方面的练习:

  • 安装和试用Scala语言
  • 了解Scala集合
  • 安装Spark并运行您的第一份工作
  • 通过多线程提高性能
  • 通过配置提高性能

先决条件

这套练习需要Linux®的一些基本知识,包括安装新应用程序的能力。 了解Scala语言是有益的,但不是必需的。 您必须按顺序执行这些练习,因为它们说明了必要软件包的安装。

练习1:安装和试用Scala语言

首先安装Scala语言。 根据您的平台,安装Scala的过程会有所不同。 在最坏的情况下,您可以下载源代码树并执行构建和安装。

安装完毕后,启动斯卡拉解释(本文的姊妹篇,“星火,用于快速数据分析替代方案,”在展示相关信息 ),尝试一些例子(从人数13 ),并确认结果。

练习2:了解Scala集合

Scala的一个有趣功能是它的集合库。 Scala中的集合是零个其他事物的容器,例如列表,集合或地图。 这个概念与Spark有关,因为它的分布式数据集可以像本地集合一样进行操作。 您可以在Scala 2.8 Collections API中了解有关Scala集合的更多信息。 仔细阅读本参考资料,以了解如何创建数组和列表集合。

执行以

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值