大数据分析之Spark初步——从安装到Demo

最新推荐文章于 2022-07-17 11:44:59 发布

jsmlay

最新推荐文章于 2022-07-17 11:44:59 发布

阅读量1.5k

点赞数

分类专栏：数据挖掘机器学习

本文链接：https://blog.csdn.net/jsmlay/article/details/46895803

版权

机器学习同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

数据挖掘

2 篇文章 0 订阅

订阅专栏

摘要：

Spark是公司当前使用的大数据分析工具之一，这里就来初步的了解下Spark的应用。

在本文中，首先对Spark及其依赖工具进行安装和配置，并配置使得能够在IDEA下进行程序的开发。

文章最后使用IDEA开发一个《使用Kmeans算法求解鸢尾花》的大数据分析程序。

-----------------------------------------------------------------------------------------------------------------------------------------

　　学习Scala，emmmmmmm.....Why?

　　看来自网上的摘录

“Spark主要的编程语言是Scala，选择Scala是因为它的简洁性（Scala可以很方便在交互式下使用）和性能（JVM上的静态强类型语言）。Spark支持Java编程，但对于使用Java就没有了Spark-Shell这样方便的工具，其它与Scala编程是一样的，因为都是JVM上的语言，Scala与Java可以互操作，Java编程接口其实就是对Scala的封装。”

“”

学不学，就看自己了。

说在前面，以下要学到Scala和SBT，内容虽然很多，但很好理解。因为创造Scala语言的人本身就来自于Java团队，所以记住一点就成：Scala对应Java，SBT对应maven，连语法都一样。

1.安装Scala(对应java)

http://www.linuxidc.com/Linux/2015-04/116455.htm（配置仅对当前用户有效）

来个小程序测试一下

任意有权限的位置新建一个HelloWord.scala文件

>geditHelloWord.scala

填入一下内容

objectHelloWord{

def main(args: Array[String]) = println("HelloWord")

}

　这里没有写Package，如果写了，编译的时候就会以当前文件夹为主文件夹，按照Package为路径创建一些列文件夹，给编译造成麻烦。

注意大小写敏感

然后在控制台输入

>scalacHelloWord.scala

>scalaHelloWord

HelloWord

Thisis the end of your First Scala Program!

2.在IDEA下编写Scala程序（withDemo）

2.0在IDEA中安装Scala和SBT这两个插件，scala在插件库里就可以安装，

　　安装SBT　http://www.scala-sbt.org/download.html

　如果下载不下来，下载时要在这个地址上右键链接另存为才能下载下来

　安装说明

　　http://www.bkjia.com/Linuxjc/848202.html

　　安装最后一步SBT-version要下载很多内容，花很长时间(几小时)，去干点别的。

安装Scala插件成功的标志是IDEA支持创建scala项目，具体的表现是在src文件夹下右键有创建“scala类”的选项。安装SBT成功时，创建withsbt的scala项目时，会在项目的根目录下出现sbt.xml文件，来做包管理。

　　接下来我们看下在IDEA中编写程序有多方便。

2.1创建一个withoutSBT项目（普通java项目）　

　　http://lidrema.blog.163.com/blog/static/20970214820146312260633/

　　Step1 创建新项目

Step2 左侧选scala，右边选scala，下一步

Step3 输入项目名，SBTversion和Scalaversion应该是有的，没有就选择安装他俩的根目录，点选AutoImport方便编程

Step4项目结构很原始，那么 sbt能不能做到自动创建目录和配置文件呢，答案是:本身不能。但 sbt是一个插件化很彻底东西，可以引入很多功能，包括自动项目目录构建，参考这个网站http://unmi.cc/sbt-np-create-folders-build-sbt/　以及这个软件　https://github.com/softprops/np。但因为构建目录本来不麻烦，在IDEA中也可以节省很多步骤，我们且用手动构建的方式。SBT推荐的Scala项目结构是