大数据-学习实践-2Hadoop
(大数据系列)
文章目录
1知识点
- Hadoop介绍
- 分布式存储+分布式计算
- Yarn
- 两种安装部署
- 伪分布式
- 分布式
- 客户端节点
2具体内容
2.1Hadoop介绍
-
分布式存储+分布式计算
- 选择CDH或HDP,方便运维管理
- 2.0:YARN拆出来,资源管理平台
- 3.0:Jaca支撑8及以上;支撑纠删码;支持多个NameNode;MR任务级本地优化;多重服务默认端口变更
- 选择CDH或HDP,方便运维管理
-
三大核心组件
- HDFS,分布式存储
- MapReduce,分布式计算
- Yarn ,集群资源管理及调度
2.2两种安装方式
2.2.1伪分布集群安装部署
官网下载hadoop,可使用镜像
安装:
- 设置静态ip
vi /etc/sysconfig/network
#确认ip参数
service network restart
#重启生效
ip addr
hostname bigdata01#设置临时主机名
vi /etc/hostname #设置永久主机名
- 关防火墙
#临时关闭
stop firewalld
#查看防火墙状态
systemctl status firewalld
#开机关闭-永久
systemctl disable firewalld
- ssh免密登录
ssh bigdata01
#需要输入密码
ssh-keygen -t rsa
#公钥位置
ll ~/.ssh/
#把公钥拷贝到免密登录机器
cat ~/.ssh/id_rda.pub >> ~/.ssh/authorized_keys
ssh bigdata01
-
安装JDK
复制-解压-改名-修改环境变量-重启source -
安装hadoop
1复制-解压-修改环境变量-重启source
2 修改hadoop配置文件
- hadoop-env.sh
vi hadoop-env.sh
#增加
export JAVA_HOME=/data/soft/jdk1.8
export HADOOP_LOG_DIR=/data/hadoop_repo/logs/hadoop
-
core-site.xml
vi core-site.xml
增加:
-
hdfs-site.xml
vi hdfs-site.xml
增加:
-
mapred-site.xml
- yarn-site.xml
- workers
vi workers
bigdata01
- 格式化hadoop
cd /data/soft/hadoop-3.2.0
bin/hdfs namenode -format
- 启动,成功后访问
sbin/start-all.sh
stop-all.sh
jps#验证是否已启动
namenodes
datanodes
secondary namenodes
nodemanagers
resourcemanager
...
- 也可以浏览器验证
- HOSTS文件(C:\Windows\System32\drivers\etc)增加ip 主机名的对应关系,访问的时候写主机名:端口号也可
- hdfs:ip(主机名):9870
- yarn:ip(主机名):8088
2.2.2 分布式集群安装
- 每个机器均需配置
- 网络ip、主机名
- 关闭防火墙
- 免密登录
- JDK-1.8
- 环境变量,source
- 部署
2.2.3客户端节点
3待补充
无
4Q&A
无
5code
无
6参考
- 大数据课程资料