- 博客(5)
- 资源 (9)
- 收藏
- 关注
原创 详解HDFS的Mapper类和Reduce类及4个泛型参数含义
Mapper类:Mapper组件开发方式:自定义一个类,继承MapperMapper组件的作用是定义每一个MapTask具体要怎么处理数据。例如一个文件,256MB,会生成2个MapTask。即2个MapTask处理逻辑是一样的,只是每个MapTask处理的数据不一样。下面是Mapper类中的4个泛型含义:泛型一:KEYIN:LongWritable,对应的Mapper的输入...
2019-02-14 09:53:09 5495 2
原创 HDFS的MapReduce执行流程
1. 从HDFS中获取数据2. MapReduce首先会将输入的数据进行逻辑切片,每一个切片是一个InputSplit对象3. 每一个InputSplit对象会交给一个MapTask来执行4. 切片中的每一行数据都会触发一次map方法,5. map方法的输入的键默认为数据偏移量,输入的值为这一行的数据;输出的键以及值的类型根据业务确定6. 在Barrier阶段,会将所有相同的键所对应的值...
2019-02-14 09:42:52 280
原创 详解大数据HDFS分布式文件系统的写入流程
删除流程:1.客户端发起RPC请求到NameNode2.NameNode收到请求后,将这个操作更新到edits文件以及内存中3.NameNode更新完内存中的元数据之后,会给客户端返回一个ack信号,表示已经删除成功,但此时这个文件并没有真正的从DataNode上删除.4.等到DataNode发送心跳信息给NameNode的时候,NameNode收到心跳信息后.NameNode发现Data...
2019-02-14 09:33:31 216
原创 详解大数据HDFS分布式文件系统的写入流程
写入流程:1.客户端发起RPC请求访问NameNode2.NameNode在收到请求之后会进行校验:路径校验,权限校验3.如果所有校验都通过,则计算文件大小,计算切块数量,分配对应的DataNode,记录元数据,将文件块的储存地址,放入到队列中返回给客户端4.客户端收到队列后,将文件进行切块,然后将每一块封装成一个packets对象,准备发送5.客户端取出第一块的地址,从这些地址中选一个...
2019-02-14 09:26:45 304
原创 详解大数据HDFS分布式文件系统的读取流程
读取流程:1,客户端通过RPC请求访问NameNode(请求读取)2,NameNode查询请求的文件的元数据,获取到文件的储存路径,然后将文件所对应的全部或者部分文件块的储存地址放入一个队列中,返回给客户端.3,客户端收到队列之后,依次遍历队列,读取文件块.4,客户端从队列中获取到第一个文件块的储存地址,从中选出一个最近的DataNode来进行读取.5.读取完成之后校验文件块的大小是否符...
2019-02-14 09:11:14 565
CRC16循环冗余算法
2020-06-01
Java中文文档以及Java面试宝典
2020-04-15
最全Java常用日期处理工具类
2019-11-19
Tes视频上传三步走
2018-12-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人