![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HDFS
偶尔想起你
这个作者很懒,什么都没留下…
展开
-
详解大数据HDFS分布式文件系统的读取流程
读取流程:1,客户端通过RPC请求访问NameNode(请求读取)2,NameNode查询请求的文件的元数据,获取到文件的储存路径,然后将文件所对应的全部或者部分文件块的储存地址放入一个队列中,返回给客户端.3,客户端收到队列之后,依次遍历队列,读取文件块.4,客户端从队列中获取到第一个文件块的储存地址,从中选出一个最近的DataNode来进行读取.5.读取完成之后校验文件块的大小是否符...原创 2019-02-14 09:11:14 · 532 阅读 · 0 评论 -
详解大数据HDFS分布式文件系统的写入流程
写入流程:1.客户端发起RPC请求访问NameNode2.NameNode在收到请求之后会进行校验:路径校验,权限校验3.如果所有校验都通过,则计算文件大小,计算切块数量,分配对应的DataNode,记录元数据,将文件块的储存地址,放入到队列中返回给客户端4.客户端收到队列后,将文件进行切块,然后将每一块封装成一个packets对象,准备发送5.客户端取出第一块的地址,从这些地址中选一个...原创 2019-02-14 09:26:45 · 298 阅读 · 0 评论 -
详解大数据HDFS分布式文件系统的写入流程
删除流程:1.客户端发起RPC请求到NameNode2.NameNode收到请求后,将这个操作更新到edits文件以及内存中3.NameNode更新完内存中的元数据之后,会给客户端返回一个ack信号,表示已经删除成功,但此时这个文件并没有真正的从DataNode上删除.4.等到DataNode发送心跳信息给NameNode的时候,NameNode收到心跳信息后.NameNode发现Data...原创 2019-02-14 09:33:31 · 209 阅读 · 0 评论 -
详解HDFS的Mapper类和Reduce类及4个泛型参数含义
Mapper类:Mapper组件开发方式:自定义一个类,继承MapperMapper组件的作用是定义每一个MapTask具体要怎么处理数据。例如一个文件,256MB,会生成2个MapTask。即2个MapTask处理逻辑是一样的,只是每个MapTask处理的数据不一样。下面是Mapper类中的4个泛型含义:泛型一:KEYIN:LongWritable,对应的Mapper的输入...原创 2019-02-14 09:53:09 · 5426 阅读 · 2 评论