Spark环境搭建与入门实例

最新推荐文章于 2024-08-26 15:45:04 发布

doubleXnine

最新推荐文章于 2024-08-26 15:45:04 发布

阅读量1.6k

点赞数

分类专栏：云计算与大数据文章标签： Spark 大数据聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mumuriyue/article/details/85719431

版权

本文详述了如何在Ubuntu上搭建Spark环境，包括Java、Maven的安装，以及Spark Standalone模式的配置。接着，通过编写Java程序，使用Spark ML库实现了K-means聚类算法，对Synthetic Control Chart Time Series数据进行分析，最终得到8个聚类结果。

摘要由CSDN通过智能技术生成

1目的及要求

基于Spark平台，使用Spark ML库实现数据聚类分析。使用Synthetic Control Chart Time Series数据synthetic_control.data，数据包括600个数据点(行)，每个数据点有60个属性，详细信息见:

http://archive.ics.uci.edu/ml/databases/synthetic_control/

目标：将600个数据点聚为多个类，默认输出为8个类。输入文件为synthetic_control.data，编写Spark分析算法实现600个点的聚类，输出8个聚类质点及包含的点。

2实验环境

本实验基于虚拟机环境，所采用的软件及其版本如下：

虚拟机软件：Oracle VirtualBox 5.2.6

虚拟机操作系统：Ubuntu 16.04.1 LTS - 64 bit

Java环境：JDK-1.8

Maven工具：Maven 3.5.4

Spark平台：spark-2.1.2-bin-hadoop2.7

3实验内容与步骤

3.1实验环境搭建

3.1.1搭建Java开发环境

1）键入如下命令将jdk软件包解压至指定目录：

tar -zxvf jdk-8u181-linux-x64.tar.gz -C your_java_home

2）键入如下命令编辑profile文件：

sudo vim /etc/profile

设置jdk环境变量，在profile文件的末尾添加如下内容：

export JAVA_HOME=your_java_home

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$JAVA_HOME/bin:$PATH

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。