JDK1.7的安装
1.直接tar开,即可
3、配置jdk相关的环境变量
使用命令进入文件.bashrc 中:cd ~
vi .bashrc
添加环境变量:
export JAVA_HOME=/usr/java/local/jdk
export PATH=$PATH:$JAVA_HOME/bin
如图3
图3
使用命令是文件生效:source .bashrc
-
测试jdk安装是否成功:java -version 如图4
图4
5、在其他每台机器上也进行安装jdk
配置集群ssh免密码登录
1、首先在三台机器上配置对本机的ssh免密码登录。
(1)生成本机的公钥,使用命令:ssh-keygen -t rsa
过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下,如图1.1
图1.1
(2)将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了
使用命令 cd /root/.ssh
cp id_rsa.pub authorized_keys
(3)使用ssh localhost 验证,如图1.3
图1.3
2、接着配置三台机器互相之间的ssh免密码登录
使用命令ssh-copy-id -i spark1(需要免密的主机)命令将本机的公钥拷贝到指定机器的authorized_keys文件中(方便好用)如图2.1
图2.1
验证是否成功使用命令:ssh spark1 如图2.2
图2.2
注意:如果想让spark2,spark3登录spark1,就需要把spark1的公钥拷贝到spark2和spark3,登录spark2和spark3也是同理。
安装hadoop
1、将hadoop-2.4.1.tar.gz,使用SecureCRT上传到linux的/usr/local目录下。
2、将hadoop包进行解压缩:
找到hadoop-2.4.1.tar.gz使用命令:cd /usr/local
hadoop包进行解压缩:tar -zxvf hadoop-2.4.1.tar.gz
3、对hadoop目录进行重命名:mv hadoop-2.4.1 hadoop
4、配置hadoop相关环境变量
进入~下,使用命令 cd ~
打开配置文件: vi .bashrc
添加环境变量:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin(注意:在原有的追加,如图4.1)
图4.1
使用命令使文件生效:source .bashrc
使用命令:hadoop version查看配置是否成功如图4.2
图4.2
-
修改配置文件
进入Hadoop目录下修改,使用命令:cd /usr/local/hadoop/etc/hadoop
查看当前目录: ls 可以看到修改的文件:
修改core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://spark1:9000</value>
</property>
修改hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/usr/local/data/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/data/datanode</value>
</property>
<property>
<name>dfs.tmp.dir</name>
<value>/usr/local/data/tmp</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
修改mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
修改yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>spark1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
修改slaves文件 如图
spark1
spark2
spark3
6、在另外两台机器上搭建hadoop
-
使用如上配置在另外两台机器上搭建hadoop,可以使用scp命令将spark1上面的hadoop安装包和.bashrc配置文件都拷贝过去。操作如下:
使用命令进入Hadoop上层目录:cd /usr/local
远程复制:scp -r hadoop root@spark2:/usr/local
使用命令进入~:cd ~
远程复制:scp ~/.bashrc root@spark2:~/
同理拷贝到spark3上。
-
要记得对.bashrc文件进行source,以让它生效。
source .bashrc
3、记得在spark1、spark2和spark3的/usr/local目录下创建data目录。
进入目录下:cd /usr/local
创建data文件夹: mkdir data
启动hdfs集群
1、格式化namenode:在spark1上执行以下命令:hdfs namenode -format
2、启动hdfs集群:start-dfs.sh
3、验证启动是否成功:jps 如图3.1节点数为:
spark1:namenode、datanode、secondarynamenode
spark2:datanode
spark3:datanode
图3.1
使用spark1:50070端口登录浏览器查看是否成功,如图3.2
图3.2
启动yarn集群
-
启动yarn集群:start-yarn.sh
2、验证启动是否成功:jps 图2.1节点数为:
spark1:resourcemanager、nodemanager
spark2:nodemanager
spark3:nodemanager
图2.1
使用spark1:8088端口登录浏览器查看,如图2.2
图2.2
安装Hive
1、将apache-hive-0.13.1-bin.tar.gz使用SecureCRT上传到spark1的/usr/local目录下。
2、解压缩hive安装包:
进入/usr/local目录下: cd /usr/local
解压缩apache-hive-0.13.1-bin.tar.gz包: tar -zxvf apache-hive-0.13.1-bin.tar.gz
3、重命名hive目录:mv apache-hive-0.13.1-bin hive
4、配置hive相关的环境变量
进入~下:cd ~
打开配置文件:vi .bashrc
修改内容:如图4
export HIVE_HOME=/usr/local/hive
export PATH=$HIVE_HOME/bin
图4
使配置文件生效:source .bashrc
安装mysql
1、在主节点安装,tar开文件安装service、del,comme三个文件
使用命令:
启动mysql: service mysqld start
3、使用yum安装mysql驱动mysql connector
yum install -y mysql-connector-java
4、将mysql connector拷贝到hive的lib包中
cp /usr/share/java/mysql-connector-java.jar /usr/local/hive/lib
-
在mysql上创建hive元数据库,并对hive进行授权
使用命令进入mysql:mysql 如图5.1
图5.1
创建数据库:create database if not exists data;
对hive进行授权操作元数据库:
grant all privileges on data.* to 'hive'@'%' identified by 'hive';
grant all privileges on data.* to 'hive'@'localhost' identified by 'hive';
grant all privileges on data.* to 'hive'@'spark1' identified by 'hive';
如图5.2
图5.2
刷新权限: flush privileges;
可以使用数据库:use data;
注意:从数据库创建,都是mysql的相关知识,记得加分号。
-
配置文件
配置hive-site.xml(修改<name>对应得<value>值)
进入/usr/local/hive/conf目录下:cd /usr/local/hive/conf
修改名称:mv hive-default.xml.template hive-site.xml
进入文件:vi hive-site.xml
修改内容:
<property>
<name>java