CDH6安装教程(亲自测试越坑版)

一、Hadoop大数据平台

1、Hadoop 发行版

  • (1) 完全开源的原生的Apache Hadoop

  • (2) Cloudera与Hortonworks公司的CDH和HDP:在Cloudera和Hortonworks合并后,Cloudera公司推出了新一代的数据平台产品CDP Data Center(以下简称为CDP),从2021年1月31日开始,所有Cloudera软件都需要有效的订阅,并且只能通过付费墙进行访问。也就是说CDH各版本都不能免费获取了

  • (3) Ambari + HDP (在Cloudera和Hortonworks合并后,HDP也不能免费使用了)

  • (4) MapR公司的MapR(已经被HPE收购)

  • (5) AWS亚马逊的EMR

  • (6) 国内华为的fusioninsight

  • (7) 国内星环科技的TDH

CDH (全称:Cloudera’s Distribution Including Apache Hadoop)是由 Cloudera 公司发行的hadoop 软件包,由Cloudera Manager安装监控管理工具和CDH大数据软件包(里面包含了hadoop、hdfs、yarn、hive、spark等许多大数据套件)组成。

2、CM和CDH简介

在安装之前先要梳理一下 CM(Cloudera Manager)和 CDH(Cloudera Distribution Hadoop)的区别:

  • CDH ​ CDH 是由 Cloudera 公司发行的一套 hadoop 软件包,里面包含了hadoop、hdfs、yarn、hive、spark等等一系列稳定的、版本兼容的大数据套件。

  • CM ​ CM 也是 Cloudera 公司开发的一套用于管理和监控 CDH 集群的软件,通过 CM 提供的 web 管理页面操作就可以轻松的管理和监控CDH 集群环境。

3、使用CM+CDH的原因

  • 当集群数量有上百台或上千台机器时使用CDH等工具可以快速的安装和扩容

  • CDH曾经开源免费,从网上可以找到免费的软件安装包

二、安装准备

1、服务器准备

准备好 N 台服务器,我这里用了 3 台机器,分别如下:

IP主机名CPU内存硬盘系统
192.168.122.101master.bigdata4核16G50GCentOS7.x
192.168.122.102node1.bigdata4核16G50GCentOS7.x
192.168.122.103node2.bigdata4核16G50GCentOS7.x

注:所有机器的 root 用户登录密码要保持一致。

2、软件包准备

(1) 下载如下软件安装包:

  • JDK1.8安装包

  • MySQL5.7安装包

  • CM6.3.1安装包

  • CDH6.3.2软件包

(2) 下载地址:

  • 百度云盘链接:链接: https://pan.baidu.com/s/1w5NB3JHPgXNntProifoS5w 提取码: qp31

  • 腾讯云盘链接:https://share.weiyun.com/MxXFgL8U

  • 另外,发现镜像站 http://ro-bucharest-repo.bigstepcloud.com/cloudera-repos/ 提供了一些CDH软件包,但缺少allkeys.asc文件。

(3) 下载的软件包内容如下:

[root@localhost cdh6.3.2]# tree .
.
├── CDH6.3.2
│   ├── CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel
│   ├── CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha1
│   ├── CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha256
│   └── manifest.json
├── CM6.3.1
│   ├── allkeys.asc
│   ├── cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm
│   ├── cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm
│   ├── cloudera-manager-server-6.3.1-1466458.el7.x86_64.rpm
│   ├── cloudera-manager-server-db-2-6.3.1-1466458.el7.x86_64.rpm
│   ├── enterprise-debuginfo-6.3.1-1466458.el7.x86_64.rpm
│   └── oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm
├── JDK1.8
│   └── jdk-8u261-linux-x64.rpm
└── MySQL5.7
    ├── mysql-community-client-5.7.16-1.el7.x86_64.rpm
    ├── mysql-community-common-5.7.16-1.el7.x86_64.rpm
    ├── mysql-community-libs-5.7.16-1.el7.x86_64.rpm
    ├── mysql-community-libs-compat-5.7.16-1.el7.x86_64.rpm
    └── mysql-community-server-5.7.16-1.el7.x86_64.rpm

3、搭建CM本地YUM仓库

这里(在master.bigdata主机上)搭建本地YUM源作为离线安装CM的仓库,让其他主机也使用该源下载CM相关的软件:

(1) 安装httpd和createrepo

systemctl stop firewalld
yum install -y httpd createrepo
systemctl start httpd && systemctl enable httpd

(2) 将从网盘上下载的软件包上传得到/var/www/html/目录内:

[root@localhost html]# pwd
/var/www/html
[root@localhost html]# tree .
.
└── CM6.3.1
│   ├── allkeys.asc
│   ├── cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm
│   ├── cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm
│   ├── cloudera-manager-server-6.3.1-1466458.el7.x86_64.rpm
│   ├── cloudera-manager-server-db-2-6.3.1-1466458.el7.x86_64.rpm
│   ├── enterprise-debuginfo-6.3.1-1466458.el7.x86_64.rpm
│   └── oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm
├── CDH6.3.2
│   ├── CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel
│   ├── CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha1
│   └── CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha256
1 directory, 5 files
[root@localhost html]#

(3) 配置CM本地Yum源

createrepo /var/www/html/CM6.3.1/
createrepo /var/www/html/CDH6.3.2/

然后,可通过浏览器访问:http://192.168.122.101/CM6.3.1/http://192.168.122.101/CDH6.3.2/

三、在所有主机上操作

由于cloudera-manager采用Server-Agent的结构,管理人员点击web页面的启动,重启,停止按钮,Server端会将指令发送到Agent端,Agent收到命令后启动相应的进程,这样根本就不需要ssh登录服务器执行命令了。

1、主机名设置

为三台机器设置好对应的主机名,并在hosts中做好对应的 IP 解析:

  • (1) 修改所有机器的/etc/hosts文件内容如下:

cat > /etc/hosts <<EOF
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.122.101 master.bigdata
192.168.122.102 node1.bigdata
192.168.122.103 node2.bigdata
EOF
  • (2) 分别设置机器的主机名,执行以下命令

主机上192.168.122.101执行:

hostnamectl set-hostname master.bigdata

主机上192.168.122.102执行:

hostnamectl set-hostname node1.bigdata

主机上192.168.122.103执行:

hostnamectl set-hostname node2.bigdata

2、关闭防火墙和 SELinux

关闭所有机器的防火墙和 SELinux,执行以下命令:

systemctl stop firewalld && systemctl disable firewalld
sed -i 's/^SELINUX=.*/SELINUX=disabled/' /etc/selinux/config  && setenforce 0

3、时间同步配置

配置时间同步,执行以下命令:

yum install -y ntpdate
(echo "*/5 * * * * /usr/sbin/ntpdate -u cn.pool.ntp.org") | crontab
systemctl restart crond

注:这里也可配置为局域网内的某个时间服务器。

4、安装 JDK环境

CDH6.0以后JDK版本最低为1.8。

(1) 卸载自带的openjdk

 rpm -qa | grep openjdk |xargs -I {} rpm -e --nodeps {}

(2) 安装oracle-jdk1.8

将jdk安装RPM包上传到服务器上,执行如下命令安装:

rpm -ivh jdk-8u261-linux-x64.rpm

5、配置本地的yum仓库

cat > /etc/yum.repos.d/manager-repos.repo <<EOF
[manager-repos]
name = Cloudera Manager, Version 6.3.1
baseurl = http://master.bigdata/CM6.3.1/
enabled = 1
gpgcheck = 0
EOF

然后执行yum listrepo命令检查本地仓库是否添加成功。

6、[优化项]禁止透明大页

(1) 所有主机输入以下命令:

echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo never > /sys/kernel/mm/transparent_hugepage/defrag

(2) 所有主机的/etc/rc.local中也需要加入这两条命令,配置为开机启动时自动配置。

7、[优化项]减少集群使用交换内存

运行以下三条命令:

sysctl -w vm.swappiness=0
echo 'vm.swappiness=0' >> /etc/sysctl.conf
sysctl -p

四、在Master主机上操作

1、安装MySQL数据库

注意:MySQL数据库也可以使用或安装在其他服务器上。

  • (1) 将MySQL的RPM包上传到Master服务器上:

[root@localhost MySQL5.7]# pwd
/root/MySQL5.7
[root@localhost MySQL5.7]# tree .
.
├── mysql-community-client-5.7.16-1.el7.x86_64.rpm
├── mysql-community-common-5.7.16-1.el7.x86_64.rpm
├── mysql-community-libs-5.7.16-1.el7.x86_64.rpm
├── mysql-community-libs-compat-5.7.16-1.el7.x86_64.rpm
└── mysql-community-server-5.7.16-1.el7.x86_64.rpm
​
0 directories, 5 files

然后执行如下命令安装MySQL5.7数据库:

[root@localhost MySQL5.7]# yum install -y ./*.rpm

启动MySQL数据库:

systemctl start mysqld && systemctl enable mysqld

获取mysql初始化密码:

grep 'temporary password' /var/log/mysqld.log

修改Mysql密码,用命令mysql -uroot -p输入上面获取到的密码,修改密码:

mysql> alter user root@localhost identified by '1qazXSW@';
mysql> flush privileges;
mysql> exit
  • (3) 下载mysql客户端的jdbc驱动(其实最好所有主机节点都需要操作下)

yum install -y wget
mkdir -p /usr/share/java/
wget -P /usr/share/java/  https://repo1.maven.org/maven2/mysql/mysql-connector-java/5.1.47/mysql-connector-java-5.1.47.jar
mv /usr/share/java/mysql-connector-java-5.1.47.jar /usr/share/java/mysql-connector-java.jar
  • (4) 创建数据库

使用命令mysql -u root -p登陆MySQL(上面配置的密码为: 1qazXSW@)后,执行如下命令创建数据库:

CREATE DATABASE scm DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
GRANT ALL ON scm.* TO 'scm'@'%' IDENTIFIED BY '1qazXSW@';
​
CREATE DATABASE amon DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
GRANT ALL ON amon.* TO 'amon'@'%' IDENTIFIED BY '1qazXSW@';
​
CREATE DATABASE rman DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
GRANT ALL ON rman.* TO 'rman'@'%' IDENTIFIED BY '1qazXSW@';
​
CREATE DATABASE hue DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
GRANT ALL ON hue.* TO 'hue'@'%' IDENTIFIED BY '1qazXSW@';
​
CREATE DATABASE metastore DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
GRANT ALL ON metastore.* TO 'hive'@'%' IDENTIFIED BY '1qazXSW@';
​
CREATE DATABASE sentry DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
GRANT ALL ON sentry.* TO 'sentry'@'%' IDENTIFIED BY '1qazXSW@';
​
CREATE DATABASE nav DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
GRANT ALL ON nav.* TO 'nav'@'%' IDENTIFIED BY '1qazXSW@';
​
CREATE DATABASE navms DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
GRANT ALL ON navms.* TO 'navms'@'%' IDENTIFIED BY '1qazXSW@';
​
CREATE DATABASE oozie DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
GRANT ALL ON oozie.* TO 'oozie'@'%' IDENTIFIED BY '1qazXSW@';

使用SHOW DATABASES;命令检查是否都创建成功。

2、安装CM

yum install -y cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server

3、配置CM数据库

官方提供了一个脚本用于初始化 CM 数据(配置/etc/cloudera-scm-server/db.properties),执行如下命令:

/opt/cloudera/cm/schema/scm_prepare_database.sh mysql scm -h localhost scm 1qazXSW@

最后提示:"All done, your SCM database is configured correctly!"代表配置成功,忽略可能的WARN信息。

4、启动 CM 服务

systemctl start cloudera-scm-server

观察日志输出,当看到Started Jetty server.时表示服务已经启动成功了(大约需要等待3~5分钟左右)。

tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log

5、访问 CM 控制台

浏览器访问http://master.bigdata:7180/cmf/login或者http://192.168.122.101:7180/cmf/login,账号密码统一为admin

五、在WEB界面上操作

 

 配置parcel自定义库,点击更多配置,在第一行输入http://master.bigdata/CDH6.3.2/

 

  • 5
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
CDH,即Cloudera Distribution for Hadoop,是一个基于Hadoop的大数据分析平台。下面是CDH安装和使用的简要教程。 1. 准备工作:确保你有一台运行Linux系统的机器作为服务器,确保能够访问互联网和安装软件的权限。 2. 下载CDH:访问Cloudera官方网站,注册并下载CDH的软件包,选择适合你系统的本。 3. 安装Java:CDH依赖Java运行,确保在服务器上安装了Java并配置好环境变量。 4. 安装CDH:解压下载的CDH软件包,并按照Cloudera提供的文档进行安装步骤。 5. 配置CDH:通过编辑配置文件,根据自己的需求设置CDH的相关参数,如内存分配、存储路径等。 6. 启动CDH:运行启动命令,启动CDH的各个组件,如HDFS、YARN等。 7. 使用CDH:使用CDH的各个组件进行数据管理和分析。例如,使用HDFS进行数据存储和管理,使用YARN进行任务调度和资源管理。 8. 监控CDH:Cloudera提供了Web界面,可用于监控CDH的运行状态和性能指标。通过访问这个界面,你可以查看集群中各个组件的运行情况,及时发现和解决问题。 9. 维护CDH:根据需要进行集群的升级和维护。Cloudera提供了升级和维护文档,你可以按照文档进行相关操作。 以上是CDH的安装和使用教程的基本步骤。由于CDH是一个较为复杂的分布式系统,还有很多细节需要根据实际情况进行配置和调整。因此,在进行CDH的安装和使用时,建议参考Cloudera官方文档,以获得更详细的指导和帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值