spark安装
spark是内存里面的计算框架
内存操作,spark无法替代mapreduce,spark提供读写流功能,在内存中,速度快。
mapreduce依赖于Hadoop中,spark不是特别需要Hadoop启动的。
spark安装步骤:
前面大数据安装的所有软件过程要详细了解(倒背如流)
先复制一台虚拟机(设置内容要同步进行)
右击复制进入常规和系统修改名称路径内存处理器等,然后启动复制好的虚拟机,打开XS hell点击minbigdata。
修改ip地址(先把虚拟机名字改成minbigdata1)
[root@bigdata ~]# hostnamectl set-hostname minbigdata1
[root@bigdata ~]# vi /etc/hosts
//配置两台虚拟机第一台主机为192.168.56.101 bigdata
192.168.56.100 bigdata1 //从机
//修改静态ip地址(一定要保证ip地址和虚拟机名字要不一样,如果一样,则所有的路径都打不开。)
[root@bigdata ~]# vi /etc/sysconfig/network-scripts/ifcfg-enp0s3
IPADDR=192.168.56.100
//从新启动网络命令
[root@bigdata ~]# systemctl restart network
从新启动XShell,新建minbigdata1,192.168.56.100 root,12 接受所有的命令。
把主机虚拟机打开(此时主从机全部打开,硬件:要保证内存足够大,cpu内核最好在6核十二线程以上)
设置无密登录,先主机可以登录从机查看(相反则不行)
[root@minbigdata1 ~]# vi /etc/hosts
//设置主从机添加命令(同步进行)此时可以主从相互登录,无障碍。
192.168.56.101 bigdata
192.168.56.100 bigdata1
//此时既不要密码也不要名字都畅通。 如果出现问题请输入exit;从新设置
正式开始步骤
把spark拉到opt文件夹下,解压 移动目录等操作
//解压
[root@bigdata opt]# tar -zxvf spark-2.4.3-bin-hadoop2.6.tgz
//移动
[root@bigdata opt]# mv spark-2.4.3-bin-hadoop2.6 bigdata/spark243
//到目录下面查看
[root@bigdata opt]# cd bigdata/spark243/conf/
[root@bigdata conf]# ls
//拷贝一份,防止误删(主机)
[root@bigdata conf]# cp spark-env.sh.template spark-env.sh
//设置从机 如果很多台从机则需要多添加几个从句。
[root@bigdata conf]# cp slaves.template slaves
//首先 先设置从机
[root@bigdata conf]# vi slaves
bigdata1 //尽量不要写ip地址,因为后期几台机器做桥接网卡时,ip地址改动会非常麻烦,容易崩溃。
//设置主机
[root@bigdata conf]# vi slaves-env.sh
//配置主节点的ip(主机)
export SPARK_MASTER_HOST=bigdata
//配置任务端口
export SPARK_MASTER_PORT=7077
//代表你在从机上的cpu是分配两核处理器
export SPARK_MASTER_CORES=2
//动用时启动内存时给5G
export SPARK_MASTER_MEMORY=5g
//显示spark管理控制界面(监视窗口的端口默认为8888)
export SPARK_MASTER_WEBUI_PORT=8888
//从机尽量不要定,因为很有可能会出现阻塞,就会出现排队,而且还是累加阻塞,然后这个节点就死掉了。
//也可以配置负载均衡的方式,就不会出现阻塞,动用哈希函数即可实现。
远程拷贝到从机
//超级拷贝 scp -r (拷贝文件用的) 远程用户名@远程地址:远程的文件夹 scp用于拷贝文件夹
[root@bigdata spark243]# scp -r /opt/bigdata/spark243/ root@bigdata1:/opt/bigdata/
//a) 修改sbin下spark-config.sh
[root@minbigdata1 ~]# cd /opt/bigdata/spark243/sbin/
[root@minbigdata1 sbin]# vi spark-config.sh
export JAVA_HOME=/opt/inst/jdk181
启动spark
到主节点spark的sbin下运行[root@bigdata sbin]# ./start-all.sh
关闭spark
[root@bigdata sbin]# ./stop-all.sh