2020年05月_爱吃甜食_

12月 11月 10月 09月 08月 07月 06月 05月 04月 02月

原创 hadoop-10 MapTask及输入切片机制

概念Block: HDFS物理上数据切成一块一块存储Split : 逻辑上对输入进行分片，不会改变物理上的存储。MapTask在MR中，每个mapTask 处理一个逻辑切片split的数据量默认情况下，每个物理的block对应一个逻辑split，每个split对于一个mapTask。即mapTask数=split数可以通过改变split大小来改变mapTask个数FileInputFormat切片大小计算方式//源码//切片大小决定公式 protected long comp

2020-05-28 18:43:06 269

原创 hadoop-8 序列化

概述序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象java序列化和hadoop序列化对比Java 的序列化（Serializable）是一个重量级序列化框架，一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系…），不便于在网络中高效传输；所以，hadoop 自己开发了一套序列化机制（Writable），精简，高效。不用像 java

2020-05-26 16:28:37 119

原创 hadop-6 小文件治理

小文件治理原因小文件同样需要对应的元数据，过多的小文件元数据浪费内存空间寻址大量小文件浪费时间hadoop archivehadoop archive实际上底层实现是运行了一个MR任务。官方文档地址：https://hadoop.apache.org/docs/r1.2.1/hadoop_archives.html治理命令name: 生成的压缩包文件名。文件名必须以.har结尾parent path: 需要治理的小文件所在文件夹所在父目录r : 官方文档中也没有提到此参数。s

2020-05-23 11:17:29 195

原创 hadoop-5 datanode

Datanodedatanode工作机制数据完整性掉线时限参数设置DataNode的目录结构Datanode多目录配置datanode工作机制1）一个数据块在datanode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。2）DataNode启动后向namenode注册，通过后，周期性（1小时）的向namenode上报所有的块信息。3）心跳是每3秒一次，心跳返回结果带有namenode给该datanode的命令如复制块数据到另一台机器

2020-05-22 14:32:18 93

TA关注的人

a3125504x的博客

原创 hadoop-10 MapTask及输入切片机制

原创 hadoop-8 序列化

原创 hadop-6 小文件治理

原创 hadoop-5 datanode

原创 hadoop-4 namenode和secondary namenode机制

原创 hadoop-3 HDFS读写流程

原创 haoop-2 block机制和副本机制

原创 hadoop-1 java 操作文件

原创 hdfs常用配置文件

原创 hadoop-fs.defaultFS

转载基于idea搭建Hadoop源码阅读环境

IDEA快捷键大全.zip

工程文件设置输出

MFC圆形进度条（ProgressContrl）如何实现？

哪位大神帮忙看看这是MFC的什么控件