- 博客(11)
- 资源 (2)
- 问答 (2)
- 收藏
- 关注
原创 hadoop-10 MapTask及输入切片机制
概念Block: HDFS物理上数据切成一块一块存储Split : 逻辑上对输入进行分片,不会改变物理上的存储。MapTask在MR中,每个mapTask 处理一个逻辑切片split的数据量默认情况下,每个物理的block对应一个逻辑split,每个split对于一个mapTask。即mapTask数=split数可以通过改变split大小来改变mapTask个数FileInputFormat切片大小计算方式//源码//切片大小决定公式 protected long comp
2020-05-28 18:43:06 269
原创 hadoop-8 序列化
概述序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象java序列化和hadoop序列化对比Java 的序列化(Serializable)是一个重量级序列化框架,一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系…),不便于在网络中高效传输;所以,hadoop 自己开发了一套序列化机制(Writable),精简,高效。不用像 java
2020-05-26 16:28:37 119
原创 hadop-6 小文件治理
小文件治理原因小文件同样需要对应的元数据,过多的小文件元数据浪费内存空间寻址大量小文件浪费时间hadoop archivehadoop archive实际上底层实现是运行了一个MR任务。官方文档地址:https://hadoop.apache.org/docs/r1.2.1/hadoop_archives.html治理命令name: 生成的压缩包文件名。文件名必须以.har结尾parent path: 需要治理的小文件所在文件夹所在父目录r : 官方文档中也没有提到此参数。s
2020-05-23 11:17:29 195
原创 hadoop-5 datanode
Datanodedatanode工作机制数据完整性掉线时限参数设置DataNode的目录结构Datanode多目录配置datanode工作机制1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向namenode注册,通过后,周期性(1小时)的向namenode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有namenode给该datanode的命令如复制块数据到另一台机器
2020-05-22 14:32:18 93
原创 hadoop-4 namenode和secondary namenode机制
namenode和secondary namenode机制namenodeedits.logfsimageNameNode工作机制Secondary namenodeSecondary namenode对namenode的备份CheckPoint触发条件namenodenamenode用来管理集群中的元数据信息,每条元数据大概150byte元数据信息存储namenode的内存中edits.log和fsimage存储在NameNode的本地磁盘中edits.log和fsimage加起来就是完整的元
2020-05-21 21:46:55 262
原创 hadoop-3 HDFS读写流程
hDFS写数据流程Client按照默认block大小切割(如200M)。200的数据会被切割成128 72两个个block块然后按下图开始写。第一个Block走全流程,后面的block之前从addBlock()开始1.客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在2.NameNode返回是否可以上传3.客户端请求第一个 Block上传到哪几个DataNode服务器上(就近原则,离当前client
2020-05-21 18:23:12 404
原创 haoop-2 block机制和副本机制
抽象成block的好处一个文件有可能大于集群中任意一个磁盘10T*3/128 = xxx块 2T,2T,2T 文件方式存—–>多个block块,这些block块属于一个文件使用块抽象而不是文件可以简化存储子系统。只需要和block打交道而不是具体的文件系统块非常适合用于数据备份进而提供数据容错能力和可用性,以block为单位备份块缓存DataNode读写频繁的block会被存储在DataNode的内存中。一个bolck仅仅缓存在一个DataNode的内存中副本数hadoop默认保
2020-05-21 15:40:48 183
原创 hadoop-1 java 操作文件
hadoophdfs的安全模式HDFS与javaAPI开发Windows下hadoop环境变量配置文件系统配置项的3种重载方式新建,重命名、删除,上传hdfs的安全模式安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受只读数据请求,而不接受删除、修改等请求HDFS启动时,DataNode向NameNode注册汇报。汇报可用的block状态。NameNode判断有99.9%的block满足最小副本数(1,与设置的副本数无关)就会退出安全模式HDFS启动时,默认30秒处于安全期,过
2020-05-21 14:47:50 119
原创 hdfs常用配置文件
每个property的详细含义可参考官方文档(左下角Configuration一栏中):https://hadoop.apache.org/docs/r2.9.2/core-site.xml<configuration><!-- 文件系统地址,代码中设置连接配置时要用 --> <property> <name>fs.defaultFS</name> <value>hdfs://IP:802
2020-05-20 10:26:57 1661
原创 hadoop-fs.defaultFS
在java代码中配置hadoop需要调用 conf.set方法。此方法中要求传入name和value//源码 public void set(String name, String value) { set(name, value, null); }//配置代码 Configuration conf = new Configuration(); conf.set("fs:defaultFS","hdfs://node01:8020");此name和value实际上在 core-s.
2020-05-19 23:21:23 8347 1
转载 基于idea搭建Hadoop源码阅读环境
亲测可用。下载包的试试下载尾缀为src.tar.gz的Hadoop源码是这么做,其他源码环境也类似。1、到官网下载Hadoop源码包,例如hadoop-2.6.5-src.tar.gz.https://www-eu.apache.org/dist/hadoop/common/hadoop-2.6.5/2、将下载的源码包解压到某个目录下,记住这个目录,后面导入Idea时需要这个目录。3、打开Idea,点击Import Project选项卡。选择Import project from ext
2020-05-19 20:12:14 398
IDEA快捷键大全.zip
2020-07-14
MFC圆形进度条(ProgressContrl)如何实现?
2015-11-10
哪位大神帮忙看看这是MFC的什么控件
2015-04-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人