课下自己理解,捋一捋,
1.hdfs读写流程
2.mr的执行流程
3.yarn任务的提交流程
hadoop分布式文件系统
先解决存储问题
历史数据
最大128
128mb
1.x 64 2.x 128
文件自身属性信息 位置映射信息
hdfs系统默认使用文件系统是谁??
本地
hdfs://
defaultFS设置的
试试8020端口有网页吗????
远程过程调用
这属于架构层面的解析了吧
副本大小影响
随机寻址
硬盘读写
网卡带宽
批处理,历史记录,
少
当datanode挂了一台
多
datanode挂了然后又活了
复制
1.客户端调用create创建分布式文件对象
2.通过RPC相namenode请求, namemode校验
3.返回一个输出流对象写出文件
4.通过管道写出数据
5.ack应答机制
6.文件上传完毕之后 调用close方法关闭输出
7.通知NameNode写入完成 等待NameNode确认
一个流自动写成一个文件,
1.客户端调用open方法创建分布式文件对象
2.箱namenode发送请求获取快的位置信息
3.返回块的位置列表(排好序)
4.调用read方法按照列表的顺序依次读取块
找namenode请求下一批块的位置
继续读写
5.等到所有的块读完之后 关闭输入流
java中get()和newInstance一样,创建实例对象,
nio + 序列化
没开yarn,
内存
元数据150b,