大数据学习----Hadoop完全分布式环境搭建
永远谦逊,保持对学习的渴望。
第一章 Linux安装 第二章 Linux配置 第三章 Hadoop完全分布式环境搭建 第四章 Zookeeper的安装 第五章 HBase的安装和基础命令
参考文章:
一、ssh免密码登录配置方法
二、Hadoop完全分布式的搭建
文章目录
前言
本文紧接上文,包括完全分布式环境搭建之前的一些其他的工具的安装,准备和搭建完成后的测试
以下是本篇文章正文内容
一、所需要的资源
资源分享:
所需要用到资源:
eclipse、Java、Hadoop
本文只有概括完全分布式环境的搭建
链接: 网盘链接,点击此处
提取码:k6wy
二、Hadoop概要及原理介绍
Hadoop概要
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。Hadoop的核心是分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce。
Apache Hadoop版本分为三代,分别是Hadoop 1.0、Hadoop 2.0和Hadoop3.0。
除了免费开源的Apache Hadoop以外,还有一些商业公司推出Hadoop的发行版。2008年,Cloudera成为第一个Hadoop商业化公司,并在2009年推出第一个Hadoop发行版。此后,很多大公司也加入了做Hadoop产品化的行列,比如MapR、Hortonworks、星环等。2018年10月,Cloudera和Hortonworks宣布合并。一般而言,商业化公司推出的Hadoop发行版也是以Apache Hadoop为基础,但是前者比后者具有更好的易用性、更多的功能以及更高的性能。
三、Hadoop环境搭建前的准备
(一)创建Hadoop用户
在上文有提及创建普通用户,并没有操作。所以放在这里创建普通用户,用来进行相关操作,一般在Linux系统都是不使用超级用户来进行操作的。
创建用户:
修改密码:
增加管理员权限
创建成功
(二)更新apt
Ubuntu16.04版本图形界面是有更换安装源的操作的,可以直接在图形界面里面更新下载源地址。
(三)安装SSH
上文已经进行操作安装SSH,但是没有设置免密登录,所以还需要设置免密登录。原理是验证公钥而不验证密码。这一步在安装环境中也是容易出现问题的一步。
1.安装SecureCRT
这个工具能够在主机Windows系统上通过SSH连接虚拟机的Ubuntu系统,减少系统切换带来的时间消耗和不便利的地方。
2.每个节点生成公私密钥。
每一个节点都要生成,也就是第一步和第二步。包括主节点和从属节点。ssh-keygen 不带参数就能生成,但是需要点三个回车来创建。
2.将公钥文件复制成为成被免登录机器的authorized_keys文件
有三种方案:
1、将公钥通过scp拷贝到服务器上,然后追加到~/.ssh/authorized_keys文件中,这种方式比较麻烦。scp -P 22 ~/.ssh/id_rsa.pub user@host:~/。
2、通过ssh-copy-id程序,就是下面演示的这个方法,ssh-copyid user@host即可
3、可以通过cat ~/.ssh/id_rsa.pub | ssh -p 22 user@host ‘cat >> ~/.ssh/authorized_keys’,这个也是比较常用的方法,因为可以更改端口号。