DataNode工作机制

  1. 集群有2个角色, 一个是namenode,一个datanode;
  2. datanode启动之后向namenode注册;只要是包含了哪些块,哪些数据;
  3. namenode会将信息添加到元数据中;
  4. 这些信息按周期上报一次, 默认1小时;
  5. namenode和datanode之间还有心跳,每三秒一次,心跳的返回结果带有namenode给datanode的命令;
  6. 超过10分钟没有datanode的心跳,就认为节点不可用

序列化:从内存转换成字节序列,写到磁盘中;
反序列:从 磁盘读取出来, 读到内存中;

举例子:A服务器内存中的数据转移到B服务器的内存中;要先序列化到A的磁盘中,通过网络传输到B中,再读取到内存;

java的序列化很中,包含很多额外的校验信息;不便于网络中高效的传输;所以hadoop开发了自己的序列化机制;

  1. 紧凑
  2. 快速,读写数据额外开销小
  3. 可扩展
  4. 互操作:支持多语言交互
Datanode机制是指在Hadoop分布式文件系统中,为了支持大文件的存储和处理,将大文件划分为多个(Block),每个的大小通常为64MB或128MB,并将这些分散存储在不同的Datanode上。 具体来说,当客户端上传一个大文件时,Namenode会根据预设的大小将文件划分为多个,并为每个分配一个唯一的Block ID。然后,Namenode会将每个的Block ID和副本信息(如副本数、存储位置等)存储在元数据(Metadata)中。 接下来,客户端会通过数据流的方式将每个上传到对应的Datanode上,并告知Datanode所上传的的Block ID和副本信息。Datanode会确认该是否已经存在于本地,如果不存在,则会将该存储在本地,并根据副本数的设置将该复制到其他的Datanode上。如果该已经存在于本地,则Datanode会返回成功的响应。 当客户端需要读取某个时,它会向Namenode请求该的副本信息。Namenode会查询元数据,返回该所有副本的位置信息。客户端会选择距离最近的Datanode读取该,如果该Datanode发生故障,则会选择距离次近的Datanode读取该,以此类推,直到成功读取该为止。 总的来说,Datanode机制Hadoop分布式文件系统的核心机制之一,它通过将大文件划分为多个,并将这些分散存储在不同的Datanode上,实现了高效的数据存储和处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值