1, 概念:
--------Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。
1.1 理论
1)集群:
指的是多台设备构成一个完整的应用,构成该应用的设备就构成了一个集群
2)Hadoop
hadoop = hdfs + 运算框架
hadoop 有两种运算框架, : mapreduce (第一代运算框架) 和 Yarn (第二代运算框架)
3) hdfs
hdfs = hadoop dfs : d ---> 分布式 , f ----〉filesystem
4), mapreduce [ 第一代框架 ]
hadoop : 第一代框架; hadoop 的底层运算框架
5) yarn
hadoop 第二代框架,yarn 必须在第一代运算框架启动后才能使用
1.2 术语
1),m/s
m/s 值得是:master (主)和/ slave (从),
一个管理者,多个工作者,
在 Hadoop 配置和命令中。 主机是: namenode , 从机是 datanode;
2), 公钥
公钥 是一对加密代码,A节点将公钥发送个给其他设备后, 就能免密码登陆其他设备 。
3), 免密码登录;
集群节点之间通信不需要输入密码也能互相登陆发消息 , 实现方式是通过公钥实现的
2。 hadoop 集群搭建
2.1 集群配置方案
以下是集群设备配置方案:
角色 网络设备 名, 用户名, 用户组, [ 静态 ] IP 子网掩码 网关 dns
master (管理者) node1 haduser hadoop 192.168.3. 81 255.255.255.0 192.168.3.1
slave (工作者) node2 haduser hadoop 192.168.3 .82
slave (工作者) node3 haduser hadoop 192.168.3. 83
2.2 LInux 环境搭建 (root)
1)创建用户与用户组
useradd hduser
groupadd hadoop
useradd -g hadoop hduser
passwd hduser
2)修改网络用户名node1 vi /etc/sysconfig/network
修改为:
然后 : ESC ; shirt+ : + wq 回车
3) 修改 本机名(网络用户名)解析记录
打开 host 文件
$> vi /etc/hosts
增加 内容:
192.168.3. 81 node1
192.168.3. 82 node2
192.168.3. 83 node3
4 更改 用户拥有的超级角色(/etc/sudoers)
修改sudoers
4)更改用户拥有超级用户角色(/etc/sudoers)
修改/etc/sudoers文件权限为可编辑(777)
打开sudoers文件,增加如下内容:
将/etc/sudoers文件权限权限改回440,此文件只有只读才可用,否则不可用