大数据集群之CDH版本搭建完整版

如果感兴趣,可以移驾我的博客,原文地址:https://hywelzhang.github.io/2017/11/03/%E9%9B%86%E7%BE%A4%E6%90%AD%E5%BB%BA-CDH%E6%90%AD%E5%BB%BA.html


本方法采用离线安装,需要先下载好cloudera manager和CDH的parcel安装包。
系统为CentOS,jdk版本为1.8,CDH版本5.5.4和5.10.0都安装过,没有区别,所以CDH版本也不影响。

A. 安装jdk

这一步大家都经常接触,很熟悉,所以这里就只大概叙述

  1. 将下载好的jdk-1.8.tar.gz包解压到指定目录(我习惯是放在/usr/local/java/)
  2. 配置环境变量,在/etc/profile中新增JAVA_HOME,CLASS_PATH,并添加到PATH
export JAVA_HOME=/usr/local/java/jdk1.8.0_65/
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH

小备注:配置环境变量的主要目的是将java/bin下边的命令添加到PATH路径,这样能够在任意路径调用java/bin下的执行命令。至于添加CLASS_PATH这个路径是指定java编译运行时可能需要的部分类包的位置>。主要是dt.jar和tools.jar,前者主要是Swing包的运行环境类库,后者主要是工具类库,一般java/bin下的命令实际代码是在这个里边实现的。

  1. source /etc/profile 将配置在当前账户立刻生效。或者重启也可以。

B. SSH免密互信

配置集群间的机器免密互信,可以不用密码进行ssh通信

原理:所谓”公钥登录”,就是用户将自己的公钥储存在远程主机上。登录的时候,远程主机会向用户发送一段随机字符串,用户用自己的私钥加密后,再发回给远程主机。远程主机用事先储存的公钥进行解密>,如果成功,就证明用户是可信的,直接允许登录shell,不再要求密码。

  1. 安装SSH服务:
    yum install openssh-server

  2. 生成公密匙(每台服务器,包含master):
    ssh-keygen –t rsa

  3. 将每台服务器的公钥(包含master,得到一份完整的authorized_keys)都拷贝到master的authorized_keys:
    ssh-copy-id master@server(至此master各节点机器可以无密码登录master)

  4. 将master上这一份完整的authorized_keys拷贝到各节点机器:
    scp ~/.ssh/authorized_keys spark@slave1:~/.ssh/
    (实现各机器间可以无密码登录)

C. 修改hostname和hosts,将节点IP和hostname绑定

  1. 修改hostname(可选)vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=master
  1. 修改hosts(/etc/hosts),绑定IP和hostname
127.0.0.1 localhost
(保留本地的对应解析)
192.168.194.128   master
192.168.194.129   slave1
192.168.194.130   slave2
...

D. 关闭防火墙和SELinux

安装CDH

  • 2
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 尚硅谷大数据技术之cdh vmware是一个虚拟机镜像,用于学习和实践大数据技术。 CDHCloudera公司的一整套Hadoop生态系统的发行版,包含了Hadoop的核心组件如HDFS、MapReduce、YARN、Hive、HBase等,而尚硅谷大数据技术之cdh vmware是一个已经预装了CDH的虚拟机镜像,方便用户快速使用和学习。 VMware是一款虚拟化软件,可以在一台物理机上运行多个虚拟机,每个虚拟机都可以独立运行自己的操作系统和软件。尚硅谷将CDH预装在VMware中,方便用户在自己的电脑上运行一个基于CDH的虚拟机环境,进行大数据技术的学习和实践。 使用尚硅谷大数据技术之cdh vmware,用户无需自己配置和安装CDH,只需下载并导入到VMware中,即可快速启动CDH环境。这样可以节省用户的时间和精力,让用户更加专注于对CDH的学习和使用。 尚硅谷大数据技术之cdh vmware不仅提供了CDH的基础组件,还包含了一些附加工具和示例数据,帮助用户更好地理解和实践大数据技术。用户可以通过尚硅谷提供的教程和实验来学习和掌握CDH的各项功能和应用场景。 总而言之,尚硅谷大数据技术之cdh vmware是一个方便快捷的大数据技术学习工具,通过预装CDH在VMware中,用户可以轻松构建和管理自己的大数据环境,并进行实际操作和实践。 ### 回答2: 尚硅谷大数据技术之cdh vmware是一个基于VMware虚拟机的大数据解决方案。CDHCloudera公司提供的Hadoop生态系统的一个发行版,它包括了Hadoop、Hive、HBase、Spark等大数据处理工具和框架,可以支持大规模数据的存储和分析。 CDH VMWare是尚硅谷提供的一个预配置的CDH虚拟机镜像,使用VMware虚拟化技术,方便用户快速搭建和配置CDH集群环境。它提供了一个简单且易于理解的操作界面,使得用户可以快速上手,无需复杂的配置和搭建过程。 CDH VMWare 可以帮助用户实现以下目标: 1. 快速搭建大数据环境:CDH VMWare提供了一个预先配置好的大数据集群环境,用户只需要简单地导入该镜像文件,即可获得一个完整的CDH集群环境,大大减少了搭建和配置环境的时间和成本。 2. 学习和实践大数据技术:CDH VMWare提供了一个完整的CDH集群环境,用户可以在该环境中学习和实践各种大数据技术和工具,例如Hadoop、Hive、HBase等,帮助用户快速掌握大数据处理的方法和技巧。 3. 开发和测试大数据应用:CDH VMWare提供了一个完整的CDH集群环境,用户可以在该环境中开发和测试各种大数据应用程序,例如基于Hadoop的数据处理程序、基于Spark的数据分析程序等,帮助用户快速验证和调试应用程序的正确性和性能。 总之,尚硅谷大数据技术之CDH VMWare是一个方便快速的大数据解决方案,可以帮助用户快速搭建和配置CDH集群环境,学习和实践大数据技术,以及开发和测试大数据应用程序。 ### 回答3: 尚硅谷是一个IT培训机构,他们提供了大数据技术培训,其中包括了CDH和VMware。 CDHCloudera Distributed Hadoop)是一个开源的大数据解决方案,它提供了一个基于Apache Hadoop的完整平台。CDH集成了多个大数据工具和组件,如Hadoop、Spark、Hive和HBase等,使用户可以更加方便地进行大数据处理和分析。通过CDH,用户可以管理和处理大规模的数据集,进行数据存储、计算和查询等操作。 而VMware是一个虚拟化技术提供商,其产品包括VMware Workstation、VMware Fusion和VMware ESXi等。虚拟化技术允许用户在物理服务器上运行多个虚拟机,实现资源的合理利用和管理。在大数据领域,VMware虚拟化技术可以用来部署大数据集群,提供高可用性和灵活性。用户可以在虚拟机中安装CDH,并使用CDH进行大数据处理和分析。 尚硅谷的大数据技术之CDH VMware课程,通过理论和实践相结合的方式,帮助学员掌握CDH和VMware的基本概念、部署与管理技能,并能够运用它们进行大数据的处理和分析。在课程中,学员将会学习CDH和VMware的安装与配置,了解它们的架构和原理,学会使用CDH集群进行数据处理和分析,以及利用VMware虚拟化技术在CDH环境中搭建大数据集群。 通过尚硅谷的大数据技术之CDH VMware课程,学员能够全面了解CDH和VMware在大数据领域的应用,掌握相关技能,并在实际工作中灵活运用,从而有效地处理和分析大规模的数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值