Spark ML 分布式机器学习（一）：iPython+spark安装与环境变量配置

最新推荐文章于 2024-07-16 08:46:26 发布

慢慢变强的me

最新推荐文章于 2024-07-16 08:46:26 发布

阅读量2.5k

点赞数

分类专栏： Spark-ML 文章标签： spark 机器学习

本文链接：https://blog.csdn.net/qq_32001519/article/details/69938257

版权

Spark-ML 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Spark ML 分布式机器学习（一）：iPython+spark安装与环境变量配置

—– 来自“慢慢变强的me”.2017-04-09

本人是DM领域里菜鸟一枚，原热衷于sklearn进行机器学习，经过阿里巴巴的电话面试以及网上查询看到许多公司都是用分布式spark进行数据挖掘及机器学习，经过了解和一些视频介绍决定把数据挖掘及机器学习转移到spark上，一直喜欢Python的我，spark也有相应的API–pyspark shell。工欲善其事必先利其器，经过网上博客等文章的查询，我在这篇文章里主要写了Windows7上的VMware Workstation虚拟机Ubuntu14.04中配置Anaconda（Python2.7）以支持Saprk2.0（Pyspark)安装详细步骤，以为搭建一个独立的属于自己习惯的环境，以备自己以后更好的数据挖掘及机器学习，如有幸被其他同学看到还请指点不足之处，如有不幸带来困扰还请评论于我或私信于我（知乎：慢慢变强的me；CSDN：慢慢变强的me）。最后，本文纯属个人编写，转载请注明出处。

VM虚拟机Ubuntu14.04的环境搭建
安装Aanconda（Python2.7）
安装Java SDK
安装Spark2.0
配置环境变量

一、VM虚拟机Ubuntu14.04的环境搭建（略）

二、安装Anaconda（Python2.7）

根据自己需要下载anaconda版本：下载网址
（1）利用wget下载Anaconda

（2）在Terminal里输入：bash Anaconda2-4.3.1-Linux-x86_64.sh点击回车即可。
（3）一路点击回车，直到出现：

Do you approve the license terms? [yes|no]
>>>
 Please answer 'yes' or 'no':

然后输入yes。
（4）点击回车，等一会儿出现：Thank you for installing Anaconda2!####安装成功！（其实，没有成功，我在安装的过程中没有提示我更改环境变量，然后我在安装好Python后又进行了环境变量配置）
（5）在Terminal里输入：sudo gedit /etc/profile打开profile文件，在最后面增加一行代码：export PATH=/home/pysml/anaconda2/bin:$PATH,其中，/home/pysml/anaconda2是我anaconda2安装路径。
（6）保存profile，重启ubuntu，输入：python 进行测试出现以下即安装成功。
这里写图片描述

三、安装Java SDK(安装的是java9)

（1）只需要在Terminal输入： sudo apt-get install software-properties-common
（2）sudo add-apt-repository ppa:webupd8team/java
（3）sudo apt-get update
（4）sudo apt-get install oracle-java9-installer
（5）再输入：java -version，出现以下即安装成功。
这里写图片描述

四、安装spark2.0

根据自己需要选择spark版本，下载网址
如下是本人所选择的版本：
选择Spark版本： Spark2.0.2（发布于2016.11.14）;
选择下载包的类型：Pre-built for Hadoop 2.7 and later；
选择下载类型： Direct Download；
对应spark压缩包： spark-2.0.2-bin-hadoop2.7.tgz
（1）下载上述选择的spark。wget以下就链接OK。
http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz
（2）解压spark-2.0.2-bin-hadoop2.7.tgz。代码为：tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz。
（3）因为解压后会生成一个spark-2.0.2-bin-hadoop2.7文件夹，为了方便可以去解压的存放路径手动改成名为spark的文件夹。
（4）然后进行配置环境变量：进入profile文件，在其最后增加以下代码：（进入profile的文件代码为：sudo gedit /etc/profile）

export ANACONDA_ROOT=~/anaconda2
PYSPARK_DRIVER_PYTHON=jupyter ./bin/pyspark

（5）其实这步骤就可以验证spark是否安装成功。但比较繁锁：
cd ~/spark
./bin/pyspark
（6）为了不要每次都要进行cd进入文件里调用pyspark，然后在.bashrc文件里进行spark的环境变量配置。和profile一样，进入.bashrc文件在其最后增加以下代码:（进入.bashrc文件的代码：sudo gedit ~/.bashrc 把下面的代码增加完然后再输入：source ~/.bashrc）
export PATH=$PATH:/home/pysml/spark/bin (/home/pysml/spark表示spark的路径，根据自己的路径进行更换)
（7）直接在Terminal里输入：pyspark就直接运行了。出现一个以下标志说明安装成功了，下面出现>>>，说明进入了Python里了。
这里写图片描述

（8）打开pyspark是Python，但想用ipython进行编程。
进入.bashrc文件在其最后增加以下代码:（进入.bashrc文件的代码：sudo gedit ~/.bashrc 把下面的代码增加完然后再输入：source ~/.bashrc）
export PATH=”/home/pysml/anaconda2/bin:$PATH”
export PYSPARK_DRIVER_PYTHON=ipython
（9）在Terminal里输入：pyspark，出现下图#####spark里配置ipython成功。
这里写图片描述

注：如有幸被其他同学看到还请指点不足之处，如有不幸带来困扰还请评论于我或私信于我。最后，本文纯属个人编写，转载请注明出处
参考链接：
1、http://jingyan.baidu.com/article/20b68a8893ae50796cec62b4.html
2、http://blog.csdn.net/duxu24/article/details/53587451
3、http://blog.csdn.net/dst1213/article/details/52107915

慢慢变强的me

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark ML 分布式机器学习（一）：iPython+spark安装与环境变量配置

本人是DM领域里菜鸟一枚，原热衷于sklearn进行机器学习，经过阿里巴巴的电话面试以及网上查询看到许多公司都是用分布式spark进行数据挖掘及机器学习，经过了解和一些视频介绍决定把数据挖掘及机器学习转移到spark上，一直喜欢Python的我，spark也有相应的API--pyspark shell。工欲善其事必先利其器，经过网上博客等文章的查询，我在这篇文章里主要写了Windows7上的VMware Workst
复制链接

扫一扫

专栏目录