Hadoop2 + Centos7 完全分布式配置

最新推荐文章于 2024-08-18 19:43:49 发布

weixin_30674525

最新推荐文章于 2024-08-18 19:43:49 发布

阅读量199

点赞数

文章标签：大数据运维 java

原文链接：http://www.cnblogs.com/rilweic/articles/10107662.html

版权

集群规划

内存有限，只搞3台机器

主机名	IP	角色
master	172.16.76.140	zk
slave1	172.16.76.141	zk
slave2	172.16.76.141	zk

ssh免密登录

本地DNS设置

在每台机器的 /etc/hosts中写入每台机器的别名和ip地址

172.16.76.140 master
172.16.76.141 slave1
172.16.76.142 slave2

生成公钥和私钥

master机器上免密

在master机器上，使用命令生成

ssh-keygen -t rsa

输入后，连续3次回车

Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa):
Created directory '/root/.ssh'.
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
af:0f:a9:87:43:8d:02:e4:c4:5b:aa:68:57:e8:3f:7d root@master
The key's randomart image is:
+--[ RSA 2048]----+
| .               |
|  + .            |
| + +.            |
|  =. .           |
|.....  oS        |
|o. o. o .o       |
|. . .o..o .      |
|     ooo.E       |
|      ooo..      |
+-----------------+

此时会在用户的根目录下生成.ssh的一个隐藏文件夹。进入到文件夹中有两个文件

-rw-------. 1 root root 1679 Nov  5 15:32 id_rsa
-rw-r--r--. 1 root root  393 Nov  5 15:32 id_rsa.pub

配置master节点可以直接ssh访问
进入master节点的.ssh目录

cat id_rsa.pub >> authorized_keys

此时，直接使ssh master就可以免密登录了

其他节点免密
- 在其他节点上使用ssh-keygen -t rsa生成公钥和私钥，
- 将节点上的id_rsa.pub文件的内容拷贝到master的.ssh文件的 authorized_keys文件中
- 将master节点的.ssh文件的 authorized_keys文件分发到slave1和slave2上
```
scp authorized_keys  root@slave2:/root/.ssh/
```

从不同的节点ssh到其他节点试一下，第一次可能需要输入yes

ECDSA key fingerprint is 94:d0:43:a9:48:f2:76:26:88:7c:2c:29:ec:52:ca:c4.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'slave2,172.16.76.142' (ECDSA) hto the list of known hosts.
Last login: Mon Nov  5 15:50:12 2018 from slave1

Java配置

下载

这里用的JDK8（java-8u191）,下载linux版本的压缩包(.tar.gz) 下载地址

配置

在根目录下创建了java目录，将jdk-8u191-linux-x64.tar.gz解压到java目录

配置环境变量/etc/profile,加入

export JAVA_HOME=/root/apps/java/jdk1.8.0_191
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

修改完成后记得用命令更新一下 source /etc/profile

输入命令测试一下
```
java
javac -version
java -version
```

每台机器都装一下，可以直接scp数据过去

scp -r apps/java root@slave1:/root/apps/
scp -r apps/java root@slave2:/root/apps/

zookeeper安装

zookeeper的配置需要使用奇数个数的节点，因此我们给3台机器都配置上zookeeper.

下载

下载zookeeper稳定版（这里用的zookeeper-3.4.12）下载地址

配置

解压包到/root/apps下，并命名为zookeeper.

修改环境变量

export ZOOKEEPER_HOME=/root/apps/zookeeper-3.4.5
export PATH=$PATH:$ZOOKEEPER_HOME/bin

修改完成后记得用命令更新一下 source /etc/profile

配置zookeeper
- 创建目录
```
/root/data/zookeeper/data
/root/data/zookeeper/logs
```
- 修改zookeeper目录下的conf/zoo.cfg.如没有，可以使用命令
```
cp zoo_sample.cfg zoo.cfg
```
- 修改zoo.cfg中的dataDir 为上面创建的第一个目录
- 修改zoo.cfg中的dataLogDir 为上面创建的第二个目录
- 添加为zookeeper的服务地址信息
```
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888
```
- 在dataDir中编译一个文件myid(如果没有创建一个，里面的值为1)
- 分发zookeeper到其他机器。
- 修改每个机器上的

关闭防火墙

firewall-cmd --state # 查看防火墙状态
systemctl stop firewalld.service # 停止firewall
systemctl disable firewalld.service # 禁止firewall开机启动

启动和状态检查

在每一台安装了zookeeper的机器上启动zookeeper.

zkServer.sh start

jps查看启动的状态

[root@master data]# jps
3082 Jps
3021 QuorumPeerMain

zkServer.sh status 查看状态

ZooKeeper JMX enabled by default
Using config: /root/apps/zookeeper/bin/../conf/zoo.cfg
Mode: leader

正确的话，应该是1个leader,2个follower.

zkServer.sh stop 停止zookeeper服务

hadoop安装

此处不配置HA（本地环境机器资源有限，玩不了那么多）

下载

官网下载地址

下载完成后解压到一个目录

配置

配置环境变量

export HADOOP_HOME=/root/apps/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

修改 hadoop-env.sh

export JAVA_HOME=/root/apps/java/jdk1.8.0_191

修改yarn-env.sh文件

export JAVA_HOME=/root/apps/java/jdk1.8.0_191

修改slaves文件
加入从节点的主机名

slave1
slave2

修改 core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master:8020</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/hadoop/tmp</value>
                <description>Abase for other temporary directories.</description>
        </property>
        
</configuration>

修改文件 hdfs-site.xml的配置

<configuration>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>master:50090</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/hadoop/tmp/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

文件 mapred-site.xml

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>master:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>master:19888</value>
        </property>
</configuration>

文件 yarn-site.xml

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
     </property>
    <property>
        <name>yarn.nodemanager.aux-services</name> 
        <value>mapreduce_shuffle</value> 
    </property> 
</configuration>

将配置发送到其他机器

scp命令将配置发送到slave机器上的相同目录下

格式化数据

首次启动需要先在 Master 节点执行 NameNode 的格式化：

hdfs namenode -format

至此，hadoop不含HA和ZKFC的安装就完毕了

启动安装的hadoop集群

在master节点上使用命令启动hdfs和yarn

start-dfs.sh
start-yarn.sh

使用jps命令可以看到相关进行信息

master（namenode）节点上

2977 ResourceManager
3842 Jps
3305 QuorumPeerMain
2603 NameNode
2815 SecondaryNameNode

slave（datanode）节点上

2305 DataNode
2434 NodeManager
2596 QuorumPeerMain
2687 Jps

hbase安装

下载

官网下载地址

下载完成后解压到一个/root/app 目录下

配置

配置环境变量

export HBASE_HOME=/root/apps/hbase
export PATH=$PATH:$HBASE_HOME/bin

配置hdfs-site.xml

说实话不知道这步要不要配置，将hadoop配置文件里面的hdfs-site.xml文件拷贝到此处即可

配置hbase-env.sh

找到如下变量进行配置

# 导出环境变量JAVA_HOME
export JAVA_HOME=/root/apps/java/jdk1.8.0_191
# 指定HBASE_CLASSPATH 为 HADDOP_CONF_DIR
export HBASE_CLASSPATH=/root/apps/hadoop/etc/hadoop
# 指定zookeeper为自定义的，而非hbase自带的
export HBASE_MANAGES_ZK=false

配置hbase-site.xml

<configuration>
    <property>
　　　　<name>hbase.cluster.distributed</name> <!-- 是否分布式部署 -->
　　　　<value>true</value>
　　</property>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://master:8020/hbase</value>
        <description>HBase数据存储目录</description>
    </property>
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
        <description>指定HBase运行的模式：false：单机/伪分布；true：完全分布</description>
    </property>
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>master,slave1,slave2</value>
        <description>指定ZooKeeper集群</description>
    </property>
    <property>
        <name>hbase.zookeeper.property.clientPort</name>
        <value>2181</value>
        <description>Property from ZooKeeper's config zoo.cfg. The port at which the clients will connect.</description>
    </property>
    <property>
        <name>hbase.zookeeper.property.dataDir</name>
        <value>/root/data/zookeeper/data</value>
        <description>Property from ZooKeeper's config zoo.cfg.The directory where the snapshot is stored. </description>
    </property>
</configuration>

分发到其他机器

启动hbase

# 在哪台机器上启动哪台机器就是Hmaster
start-hbase.sh

hadoop相关组件的启停

启动顺序

Hadoop及hbase集群启动顺序

zookeepeer->hadoop->hbase
Hadoop及hbase集群关闭顺序

hbase->hadoop->zookeepeer

启停ZK

启动和停止ZK

/home/zookeeper-3.4.6/bin/zkServer.sh start | stop

启动hadoop集群

启动及停止Hadoop方式一

启停yarn及hdfs（一起启动）

/data/hadoop/sbin/start-all.sh | stop-all.sh

启停historyserver进程

/data/hadoop/sbin/mr-jobhistory-daemon.sh start | stop historyserver

启动及停止Hadoop方式二

启停hdfs集群

/data/hadoop/sbin/start-dfs.sh | stop-dfs.sh

启停yarn集群

/data/hadoop/sbin/start-yarn.sh | stop-yarn.sh

启停historyserver进程

/data/hadoop/sbin/mr-jobhistory-daemon.sh start | stop historyserver

启动及停止Hadoop方式三

启停hdfs单个进程

/data/hadoop/sbin/hadoop-daemon.sh start | stop namenode

/data/hadoop/sbin/hadoop-daemon.sh start | stop datanode

/data/hadoop/sbin/hadoop-daemon.sh start | stop journalnode

/data/hadoop/sbin/hadoop-daemon.sh start | stop zkfc

启停yarn单个进程

/data/hadoop/sbin/yarn-daemon.sh start | stop resourcemanager

/data/hadoop/sbin/yarn-daemons.sh start | stop nodemanager

启停historyserver进程

/data/hadoop/sbin/mr-jobhistory-daemon.sh start | stop historyserver

启停Hbase集群

启动及停止Hbase方式一

启停HBase集群

/data/hbase/bin/start-hbase.sh | stop-hbase.sh

启动及停止Hbase方式二

启停单个Hbase进程

/data/hbase/bin/hbase-daemon.sh start | stop master
/data/hbase/bin/hbase-daemon.sh start | stop regionserver

hive安装

下载

下载地址

下载完成后解压到/root/apps/hive目录

配置环境变量

#hive安装配置
export HIVE_HOME=/root/apps/hive
export PATH=$PATH:$HIVE_HOME/bin

hdfs上创建相关目录和设置权限

hadoop fs -mkdir       /tmp
hadoop fs -mkdir       /hive
hadoop fs -chmod g+w   /tmp
hadoop fs -chmod g+w   /hive

安装并配置mysql服务

安装

参考这篇文章centos7下安装mysql5.7

配置

创建hive数据库
```
create database hive;    
```

创建hive用户并赋予权限

create user "hive" identified by "up213wifi";
GRANT ALL PRIVILEGES ON *.* TO 'hive'@'%' IDENTIFIED BY 'up213wifi' WITH GRANT OPTION;
flush privileges;

配置hive

hive是hadoop的一个客户端，不需要所有的机器上都安装hive,这点和hadoop和hbase不一样

将hive-default.xml.template文件拷贝成hive-site.xml

配置 hive-site.xml

<configuration>
  <!-- 设置 hive仓库的HDFS上的位置 -->
  <property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/hive</value>
    <description>location of default database for the warehouse</description>
  </property>
  <!-- 设置元数据存放的数据库地址、名字 -->
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://slave3:3306/hive?useSSL=false</value>
    <description>
      JDBC connect string for a JDBC metastore.
      To use SSL to encrypt/authenticate the connection, provide database-specific SSL flag in the connection URL.
      For example, jdbc:postgresql://myhost/dbName?ssl=true for postgres database.
    </description>
  </property>
<!--Driver class名字-->
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
    <description>Driver class name for a JDBC metastore</description>
  </property>

<!--连接使用的用户名-->
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>hive</value>
    <description>Username to use against metastore database</description>
  </property>
  <!--连接使用的密码-->
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>up213wifi</value>
    <description>password to use against metastore database</description>
  </property>
  <!--io相关的临时文件存放位置 -->
  <property>
    <name>hive.exec.local.scratchdir</name>
    <value>/root/data/hive/iotemp</value>
    <description>Local scratch space for Hive jobs</description>
  </property>
  <!--资源临时文件存放位置-->
    <property>
    <name>hive.downloaded.resources.dir</name>
    <value>/root/data/hive/iotemp</value>
    <description>Temporary local directory for added resources in the remote file system.</description>
  </property>
</configuration>

修改hive-env.sh

拷贝一份hive-env.sh

cp hive-env.sh.template hive-env.sh

修改数据

HADOOP_HOME=/root/apps/hadoop
export HIVE_CONF_DIR=/root/apps/hive/conf

拷贝mysql的jar包

拷贝mysql的jar包到${HIVE_HOME}/lib下

修改log4j文件

cp hive-log4j2.properties.template hive-log4j2.properties
cp hive-exec-log4j2.properties.template hive-exec-log4j2.properties

使用schematool初始化

schematool -dbType mysql -initSchema

会显示一段文字

SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/root/apps/hive/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/root/apps/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
Metastore connection URL:    jdbc:mysql://slave3:3306/hive?useSSL=false
Metastore Connection Driver :    com.mysql.jdbc.Driver
Metastore connection User:   hive
Starting metastore schema initialization to 2.3.0
Initialization script hive-schema-2.3.0.mysql.sql
Initialization script completed
schemaTool completed

表示初始化成功

初始化完成后进入到mysql数据库中（使用hive的数据库）

use hive;
show tables;

可以看到如下的数据表已经给被创立了

+---------------------------+
| Tables_in_hive            |
+---------------------------+
| AUX_TABLE                 |
| BUCKETING_COLS            |
| CDS                       |
| COLUMNS_V2                |
| COMPACTION_QUEUE          |
| COMPLETED_COMPACTIONS     |
| COMPLETED_TXN_COMPONENTS  |
| DATABASE_PARAMS           |
| DBS                       |
| DB_PRIVS                  |
| DELEGATION_TOKENS         |
| FUNCS                     |
| FUNC_RU                   |
| GLOBAL_PRIVS              |
| HIVE_LOCKS                |
| IDXS                      |
| INDEX_PARAMS              |
| KEY_CONSTRAINTS           |
| MASTER_KEYS               |
| NEXT_COMPACTION_QUEUE_ID  |
| NEXT_LOCK_ID              |
| NEXT_TXN_ID               |
| NOTIFICATION_LOG          |
| NOTIFICATION_SEQUENCE     |
| NUCLEUS_TABLES            |
| PARTITIONS                |
| PARTITION_EVENTS          |
| PARTITION_KEYS            |
| PARTITION_KEY_VALS        |
| PARTITION_PARAMS          |
| PART_COL_PRIVS            |
| PART_COL_STATS            |
| PART_PRIVS                |
| ROLES                     |
| ROLE_MAP                  |
| SDS                       |
| SD_PARAMS                 |
| SEQUENCE_TABLE            |
| SERDES                    |
| SERDE_PARAMS              |
| SKEWED_COL_NAMES          |
| SKEWED_COL_VALUE_LOC_MAP  |
| SKEWED_STRING_LIST        |
| SKEWED_STRING_LIST_VALUES |
| SKEWED_VALUES             |
| SORT_COLS                 |
| TABLE_PARAMS              |
| TAB_COL_STATS             |
| TBLS                      |
| TBL_COL_PRIVS             |
| TBL_PRIVS                 |
| TXNS                      |
| TXN_COMPONENTS            |
| TYPES                     |
| TYPE_FIELDS               |
| VERSION                   |
| WRITE_SET                 |
+---------------------------+
57 rows in set (0.00 sec)

启动hive

HiveServer2是HiveServer改进版本，它提供给新的ThriftAPI来处理JDBC或者ODBC客户端，进行Kerberos身份验证，多个客户端并发，HS2还提供了新的CLI：BeeLine，是Hive 0.11引入的新的交互式CLI，基于SQLLine，可以作为Hive JDBC Client 端访问HievServer2，启动一个beeline就是维护了一个session.