第一章大数据Hadoop学习笔记(二）

Thanks.

已于 2022-06-22 16:30:33 修改

阅读量240

点赞数

文章标签： hadoop 学习大数据

于 2022-06-22 15:42:05 首次发布

本文链接：https://blog.csdn.net/weixin_42561051/article/details/125391553

版权

一、Hadoop三种分布式模式

1、本地模式：数据存储在linux本地（测试偶尔用）
2、伪分布：数据存储在HDFS（公司没钱）
3、完全分布式：数据存储在HDFS、多台服务器工作

1、scp(secure copy)安全拷贝：实现服务器与服务器之间的数据拷贝。

   scp   -r   $pdir/$fname         $user@$host:$pdir/$fname
# 命令  递归  要拷贝的文件路径/名称  目的地用户@主机：目的地路径/名称

2、rsync远程同步工具：用于备份和镜像，具有速度快、避免复制相同内容和支持符号连接的优点。（复制文件 rsync比scp快，但rsync只更新差异性文件，scp复制所有文件）

 rsync   -av    $pdir/$fname          $user@$host:$pdir/$fname
 #命令  选项参数 要拷贝的文件路径/名称  目的地用户@主机：目的地路径/名称
 #-a归档拷贝
 #-v显示复制过程

3、xsync集群分发脚本：循环复制文件到所有节点的相同目录下

 echo $PATH#显示当前PATH环境变量
 vim xsync#在bin目录内复制下面的代码到xsync文件内

vim编辑器：命令模式、输入模式、底线模式
输入 i 由命令模式切换输入模式，输入字符，否则输入命令；
：wq！保存编辑强制退出
：wq 保存编辑操作退出

1、连接远程主机，登录别人的服务器；

` $ ssh user@hostname`

2、免密访问hadoop102，将公钥传给hadoop103

 `[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103`

1、NameNode、SecondaryNameNode不要安装在同一服务器
2、ResourceManager也很消耗内存，不要和NameNode和SecondaryNameNode配置在同一台服务器上

在这里插入图片描述

关注