hadoop
两下table提示所在目录下的内容
本地运行模式
输出路径是不能存在的
chmod 777 /etc/squid 运行命令后,squid文件夹(目录)的权限就被修改为777(可读可写可执行)
7 = 4 + 2 + 1 读写运行权限
5 = 4 + 1 读和运行权限
4 = 4 只读权限
因此,大家也就明白了 chmod 754 filename 命令的含义了。
这句命令的意思是将filename文件的读写运行权限赋予文件所有者,把读和运行的权限赋予群组用户,把读的权限赋予其他用户。
集群与版本号相对应,在换下一个集群和新版本号原数据要清空
写脚本的时候能写绝对路径就别写相对路径
集群启动/停止方式总结
1)各个模块分开启动/停止(配置ssh是前提)常用
(1)整体启动/停止HDFS
start-dfs.sh/stop-dfs.sh
(2)整体启动/停止YARN
start-yarn.sh/stop-yarn.sh
2)各个服务组件逐一启动/停止
(1)分别启动/停止HDFS组件
hdfs --daemon start/stop namenode/datanode/secondarynamenode
(2)启动/停止YARN
yarn --daemon start/stop resourcemanager/nodemanager
HDFS
上传完文件就不能再改变了,只能追加
优点
1.高容错性(数据自动保存多个副本)
2.适合处理大数据
3.可构建在廉价机器上,通过多副本机制,实现可靠性
缺点
1.不适合低延迟数据访问
2.无法高效的对大量小文件进行存储
存储大量小文件,会占用NameNode大量内存来存储文件目录和块信息
小文件存储的寻址时间会超过读取时间,违法了HDFS的设计目标
不支持并发写入、文件随机修改,仅支持追加
NameNode(nn)
管理者,
1管理hdfs名称空间
2配置副本策略
每个服务器只能存储一个副本