1.三台机器基本配置
更改主机名
vi /etc/sysconfig/network
更改映射
vi /etc/hosts
更改ip地址
vi /etc/sysconfig/network-scripts/ifcfg-e*
注释HWADDR,删除UUID,启用网卡ONBOOT=YES,写死为静态BOOTPROTO=static
IP地址:IPADDR=192.169.**.**,子网掩码:NETMASK=255.255.255.0
网关:GATEWAY=192.168.**.**,DNS可设两个:8.8.8.8
重启服务
service network restart
关掉防火墙
systemctl stop firewalld
时间同步
date -s 2019-09-01
2.安装及配置环境
解压
tar -zxvf ** -C **
环境变量
vi /etc/profile
export JAVA_HOME=/root/apps/jdk
export HADOOP_HOME=/root/apps/hadoop
export HIVE_HOME=/root/apps/hive
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin
生效
source /etc/profile
验证
java -version
echo $HADOOP_HOME
拷贝分发
scp /root/apps root@node02:/root/ (node03)
scp /etc/profile root@node02:/etc/ (node03)
3.免密登录(dsa)
首先生成密钥对
ssh-keygen -t dsa
在其余机器上生成.ssh目录
ssh localhost
将公钥分发给其余机器
scp id_dsa.pub root@node02:/root/.ssh/node01.pub (node03)
将公钥加入keys中
cat id_dsa.pub >> authorized_keys (node01)
cat node01.pub >> authorized_keys (node02,node03)
4.配置hadoop文件
*hadoop-env.sh
export JAVA_HOME=/root/apps/jdk
*hdfs-site.xml
<property>
<name>dfs.replication</name> 数据块的冗余度,最多为3
<value>2</value> 注意如果大于集群数量将会报错
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/root/hdpdata/name/</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/root/hdpdata/data/</value>
</property>
*core-site.xml
<property>
<name>fs.defaultFS</name> 主节点namenode的位置
<value>hdfs://node01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> 数据快和元信息的目录位置
<value>/root/apps/hadoop/tmp</value> 默认的tmp是临时目录,一定要改
</property>
*mapred-site.xml
<property>
<name>mapreduce.framework.name</name> MR运行框架
<value>yarn</value>
</property>
*yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name> 配置yarn主节点的位置
<value>node01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name> 执行MR的方式shuffle洗牌
<value>mapreduce_shuffle</value>
</property>
*slaves 配置从节点位置
node02
node03
5.分发及启动集群
分发给其余机器
scp hadoop-env.sh hdfs-site.xml core-site.xml mapred-site.xml yarn-site.xml slaves root@node02:`pwd`
格式化
hdfs namenode -format
自动启动
start-all.sh
6.配置使用hive
将hive加入环境变量
vi /etc/profile
export HIVE_HOME=/root/apps/hive
为hive配置hadoop环境
vi /root/apps/hive/conf/hive-env.sh(template)
HADOOP_HOME=/root/apps/hadoop (注释放开)
export HIVE_CONF_DIR=/root/apps/hive/conf
拷贝驱动
cp mysql-connector-java-5.1.27-bin.jar /root/apps/hive/lib/
配置matestore到MySQL
vi /root/apps/hive/conf/hive-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://192.168.159.10:3306/hive_metastore?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
<description>password to use against metastore database</description>
</property>
</configuration>
记得要先启动集群,再起hive
若是使用hive3版本,必须先执行"schematool -dbType mysql -initSchema",不然会报异常
7.安装sqoop和flume
解压
tar -zxvf ** -C **
修改sqoop文件
mv sqoop-env-template.sh sqoop-env.sh
vi sqoop-env.sh
export HADOOP_COMMON_HOME=/root/app/hadoop-2.7.2
export HADOOP_MAPRED_HOME=/root/app/hadoop-2.7.2
export HIVE_HOME=/root/app/hive
为sqoop拷贝驱动
cp mysql-connector-java-5.1.27-bin.jar /root/apps/sqoop/lib/
修改flume文件
mv flume-env.sh.template flume-env.sh
vi flume-env.sh
export JAVA_HOME=/root/app/jdk1*