最近想学习一些跟spark相关的教程。然后看到伯克利开了一门课,BerkeleyX CS100.1x "Introduction to Big Data with Apache Spark"。首先需要进行的是环境搭建。环境搭建中我遇到了好多问题。也不知道是国内的网络的问题还是我太菜。反正跌跌撞撞中我还是完成了环境的搭配。供想要做相关学习的朋友参考一下。有不对的地方请大家指出。本人小菜鸟一枚。
本课程需要的软件是virtualbox(4.3.10);vagrant(1.7.2)
以下是我搭配环境的步骤。(我的环境是
Windows server2012,但是我感觉window下面可能都是这么安装)
1.安装virtualbox,最好是4.3.10;然后一路默认安装就行。啥也不用选。(安装好后应该啥也没有)
2.安装vagrant,还是一路默认安装哦。(so easy!)
推荐一个vagrant初入门的教程:
http://my.oschina.net/u/998304/blog/501331
3.点击开始->运行输入cmd。进入控制台界面
4.新建一个文件夹,随便建在哪里。为了方便,博主建在了c盘下面。大家可以选择一个空间比较大的磁盘。mkdir myvagrant。
5.进入该文件夹下。cd myvagrant.
6.然后添加虚拟操作系统。vagrant box add http://hadoopcon.org/~jazz/vagrant-spark/virtualbox.box --name "sparkmooc/base"。
这句话我自己的理解是从网络上下载一个虚拟的操作系统,然后把它加到vagrant Box 中并给它取名为sparkmooc.base。(Box ,你可以把它想成是一个箱子,里面装了一些东西。在用 Vagrant 创建虚拟机的时候,需要用到 Box ,它里面会包装操作系统的镜像,不同的 Box 带的操作系统可能是不一样的,比如 CentOS,Ubuntu 等等,你可以基于它们去创建自己版本的 Box,比如在虚拟机上安装一些软件,然后把它重新打包成 Box 。)
7.下载完毕后,添加box成功后,我们需要创建虚拟机
1)查看可用的box:vagrant box list
2)初始化项目:vagrant init sparkmooc/base,会生成一个Vagrantfile的文件。这个Vagrantfile就是用来个性化配置当前虚拟机的配置文件。
3)根据项目做修改:
第一处:ipythonPort = 8001 # Ipython port to forward (also set in IPython notebook config)
第二处:config.vm.network "forwarded_port", host: ipythonPort, guest: ipythonPort, auto_correct: true # IPython port (set in notebook config)
config.vm.network"forwarded_port", host: 4040, guest: 4040, auto_correct: true # Spark UI (Driver)
保存后,在当前目录下执行vagrant up.
virtualbox对应的操作系统也会被启动。
到这里了,少年,你离成功只有一一步啦!!是不是很开心呀~
8.在浏览器中输入http://localhost:8001,看到这个界面,你就可以大呼爽爽爽了!因为你已经搭配环境成功了!恭喜你。
接下来我们来看下一节吧。