1linux基础环境配置
1.1:安装centos 6.5 略,配置ip
vi /etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
IPADDR=192.168.128.41
NETMASK=255.255.255.0
GATEWAY=192.168.1.1
重启网卡
service network restart
1.2:关闭防火墙
service iptables stop
chkconfig iptables off
vi /etc/selinux/config
SELINUX=disabled
1.3:配置dns服务器
vi /etc/resolv.conf
nameserver 61.139.2.69
1.4:配置yum源
cd /etc/yum.repos.d/
rm -rf *
mv 自己的repo文件移动到/etc/yum.repos.d/目录中:cp /usr/local/CentOS6-Base-163.repo .
修改repo文件,把所有gpgcheck属性修改为0
yum clean all
yum makecache
yum install telnet
1.5:安装jdk
rpm -ivh jdk-7u65-linux-i586.rpm
配置jdk相关的环境变量
vi /etc/profile
export JAVA_HOME= /usr/java/jdk1.7.0_65
export PATH=
PATH:
JAVA_HOME/bin
source /etc/profile
java -version
rm -f /etc/udev/rules.d/70-persistent-net.rules
1.6:配置ip,hostname,hosts
vi /etc/sysconfig/network
vi /etc/hosts
1.7:配置ssh
首先在三台机器上配置对本机的ssh免密码登录
生成本机的公钥,过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下
ssh-keygen -t rsa
将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了
cd /root/.ssh
cp id_rsa.pub authorized_keys
接着配置三台机器互相之间的ssh免密码登录
使用ssh-copy-id -i spark命令将本机的公钥拷贝到指定机器的authorized_keys文件中
2hadoop环境配置
2.1将hadoop包进行解压缩:tar -zxvf hadoop-2.4.1.tar.gz
2.2配置hadoop相关环境变量
vi /etc/profile
export HADOOP_HOME=/usr/local/hadoop
export PATH=
HADOOPHOME/bin:
HADOOP_HOME/sbin
source /etc/profile
2.3配置core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://spark1:9000</value>
</property>
2.4配置hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/usr/local/data/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/data/datanode</value>
</property>
<property>
<name>dfs.tmp.dir</name>
<value>/usr/local/data/tmp</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
2.5 mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
2.6yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>spark1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
2.7slaves
spark1
spark2
spark3
2.8启动hdfs集群
1、格式化namenode:在spark1上执行以下命令,hdfs namenode -format
2、启动hdfs集群:start-dfs.sh3、验证启动是否成功:jps、50070端口
spark1:namenode、datanode、secondarynamenode
spark2:datanode
spark3:datanode
2.9启动yarn集群
1、启动yarn集群:start-yarn.sh2、验证启动是否成功:jps、8088端口
spark1:resourcemanager、nodemanager
spark2:nodemanager
spark3:nodemanager
3配置spark环境
3.1安装spark
解压缩spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz。
更改spark目录名:mv spark-1.3.0-bin-hadoop2.4 spark
设置spark环境变量
vi /etc/profile
export SPARK_HOME=/usr/local/spark
export PATH=
SPARKHOME/binexportCLASSPATH=.:
CLASSPATH:
JAVAHOME/lib:
JAVA_HOME/jre/lib
source/etc/profile
3.2修改spark-env.sh文件
1、cd /usr/local/spark/conf
2、cp spark-env.sh.template spark-env.sh
3、vi spark-env.sh
export JAVA_HOME=/usr/java/latest
export SCALA_HOME=/usr/local/scala
export SPARK_MASTER_IP=192.168.1.107
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
3.2配置slaves
spark1
spark2
spark3
3.3启动spark
在spark目录下的sbin目录
执行./start-all.sh
使用jsp和8080端口可以检查集群是否启动成功
进入spark-shell查看是否正常