Spark安装和集群部署:
1.搭建Hadoop分布式集群
2.Spark安装和集群部署
3.测试Spark集群
二台机器,一台机器作为Master结点,另外一台作为Slaves结点
步骤1:
Master---台式机 JDK 1.8.0_121-b13
Slaves---HP笔记本 JDK 1.8.0_73-b02
配置SSH免密码登录:http://book.51cto.com/art/201211/363775.htm 可参考
ubuntu下安装、启动和卸载SSH 可参http://blog.csdn.net/qq_30770095/article/details/53516594
Hadoop的Master和Slave结点之间的通信,以及Spark的Master和Slave结点之间的通信,都是通过SSH来完成的。
Linux简化权限问题:sudo -s进入root用户权限模式
ls -a -a是它的选项,是all的意思,就是显示所有的,包括隐藏的(就是文件名以点开头的,如 .test)
linux删除文件夹命令rm -rf 目录名字
linux 解压 tgz
tar -xvf file.tar //解压 tar包
tar -xzvf file.tar.gz //解压tar.gz
tar -xjvf file.tar.bz2 //解压 tar.bz2
tar -xZvf file.tar.Z //解压tar.Z
unrar e file.rar //解压rar
unzip file.zip //解压zip
tgz跟tar.gz是一样的
tar zxvf XX.tar.gz 即可
Linux如何查看JDK的安装路径 echo $JAVA_HOME
(1)在第一台机器上 完成SSH的在线安装 apt-get install ssh 安装完成后,在终端输入/etc/init.d/ssh start启动服务
(2)SSH 设置免密码登录,生成私钥和工钥。
HP笔记本SSH一直启动不了的解决方法---------------http://blog.csdn.net/xtj332/article/details/40626557
Ubuntu环境下SSH的安装及使用 可参考http://blog.csdn.net/netwalk/article/details/12952051 【重要】
私钥公钥: ssh-keygen -t rsa -P '' 书上不对
linux查看网络地址 ifconfig
Ubuntu13.10安装SSH,以及配置多台电脑之间无密码登陆 可参考 http://blog.chinaunix.net/uid-28996519-id-3984571.html
permission denied, please try again: http://blog.csdn.net/rznice/article/details/49360893
SSH登录了另外一台电脑,如何退出 exit
Linux下查看文件的属性ls -l查看详细的属性
------------------------------------------------------------------------------------------------ 免密登录搞定
(3)安装Hadoop和搭建Hadoop分布式集群
1.安装Hadoop
http://www.linuxidc.com/Linux/2015-01/112029.htm
Hadoop 2.6.5
配置/.bashrc vim .bashrc
2. 配置Hadoop分布式集群
1.修改主机名, 配置主机名和IP对应关系
PING CTRL+C
PNIG -C 3 www.baidu.com 就代表ping 3 次
2.在hadoop的目录下用mkdir命令创建namenode和datanode目录:tmp hdfs hdfs/name hdfs/data
http://www.linuxidc.com/Linux/2015-02/113486.htm[重要]
3.修改SparkMaster的配置文件
3.1 修改core-site.xml文件
replication指的是副本数,这里设置的是冗余副本数为2 |
3.2 修改mapred-site.xml
3.3 修改hdfs-site.xml
(4) 测试hadoop分布式集群
--------------------------------------------------------------hadoop分布式集群搭建完成。
Spark安装和集群部署
1.安装Scala
Scala:Scala是一门多范式的编程语言,一种类似java的编程语言[1] ,设计初衷是实现可伸缩的语言[2] 、并集成面向对象编程和函数式编程的各种特性。
Scala选哪个版本?Spark选哪个版本?1.5.1---对应起来
scala-2.11.4
http://blog.csdn.net/infovisthinker/article/details/50011699 scale eclipse IDE
~/.bashrc ---------------------
PATH 在那里设置 /etc/environment. 复制到.bashrc中
ctrl+C 退出scala
java设置默认JDK ----http://www.360doc.com/content/15/0807/15/2795334_490120031.shtml 或者 把正确的1.8.0_73的路径直接写到.bashrc中。
--------------------------------------------------------------------------------------在两台机器上,也就是SparkMaster SparkWorker1 上测试Scala都没有问题--------------------------------------
安装Spark和集群部署
http://www.cnblogs.com/lijingchn/p/5573898.html [参考]
spark-shell http://blog.csdn.net/sunflower_cao/article/details/26708797 [参考]
ctrl+C.
----------------------------------------------------------- spark集群部署成功
Spark集群测试
1.通过Spark提供的示例LocalPi测试Spark集群-------------------通过
正确的命令是 ./run-example LocalPi
2.通过Spark shell测试Spark集群
http://www.cnblogs.com/onetwo/p/5424377.html
http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html#put ------可具体看 copyFromLocal这条命令
ctrl+C.
关闭Hadoop集群也是在Master节点上执行:
sbin/stop-dfs.sh
sbin/stop-yarn.sh
百度搜“搭建HADOOP+Spark集群的方法”-------------------------可参考
理论部分:------------------《深入云计算Hadoop源代码分析》---看--了解 2017.9.24--------------------买个便签条--LINUX指令积累
copyFromLocal
要查看HDFS
命令如下:
hadoop fs -ls /
hadoop fs -ls /miao/ miao是我新建立的 那也就是说都传上去了
-----------------------------------------------------------------------------------------------------------------------------------
百度搜 “
hadoop2.6.5配置
” ---------------------------------------提示是具体进行配置的时候,最好是能时间上对起来。