自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (2)
  • 问答 (2)
  • 收藏
  • 关注

原创 hadoop-10 MapTask及输入切片机制

概念Block: HDFS物理上数据切成一块一块存储Split : 逻辑上对输入进行分片,不会改变物理上的存储。MapTask在MR中,每个mapTask 处理一个逻辑切片split的数据量默认情况下,每个物理的block对应一个逻辑split,每个split对于一个mapTask。即mapTask数=split数可以通过改变split大小来改变mapTask个数FileInputFormat切片大小计算方式//源码//切片大小决定公式 protected long comp

2020-05-28 18:43:06 269

原创 hadoop-8 序列化

概述序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象java序列化和hadoop序列化对比Java 的序列化(Serializable)是一个重量级序列化框架,一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系…),不便于在网络中高效传输;所以,hadoop 自己开发了一套序列化机制(Writable),精简,高效。不用像 java

2020-05-26 16:28:37 119

原创 hadop-6 小文件治理

小文件治理原因小文件同样需要对应的元数据,过多的小文件元数据浪费内存空间寻址大量小文件浪费时间hadoop archivehadoop archive实际上底层实现是运行了一个MR任务。官方文档地址:https://hadoop.apache.org/docs/r1.2.1/hadoop_archives.html治理命令name: 生成的压缩包文件名。文件名必须以.har结尾parent path: 需要治理的小文件所在文件夹所在父目录r : 官方文档中也没有提到此参数。s

2020-05-23 11:17:29 195

原创 hadoop-5 datanode

Datanodedatanode工作机制数据完整性掉线时限参数设置DataNode的目录结构Datanode多目录配置datanode工作机制1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向namenode注册,通过后,周期性(1小时)的向namenode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有namenode给该datanode的命令如复制块数据到另一台机器

2020-05-22 14:32:18 93

原创 hadoop-4 namenode和secondary namenode机制

namenode和secondary namenode机制namenodeedits.logfsimageNameNode工作机制Secondary namenodeSecondary namenode对namenode的备份CheckPoint触发条件namenodenamenode用来管理集群中的元数据信息,每条元数据大概150byte元数据信息存储namenode的内存中edits.log和fsimage存储在NameNode的本地磁盘中edits.log和fsimage加起来就是完整的元

2020-05-21 21:46:55 262

原创 hadoop-3 HDFS读写流程

hDFS写数据流程Client按照默认block大小切割(如200M)。200的数据会被切割成128 72两个个block块然后按下图开始写。第一个Block走全流程,后面的block之前从addBlock()开始1.客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在2.NameNode返回是否可以上传3.客户端请求第一个 Block上传到哪几个DataNode服务器上(就近原则,离当前client

2020-05-21 18:23:12 404

原创 haoop-2 block机制和副本机制

抽象成block的好处一个文件有可能大于集群中任意一个磁盘10T*3/128 = xxx块 2T,2T,2T 文件方式存—–>多个block块,这些block块属于一个文件使用块抽象而不是文件可以简化存储子系统。只需要和block打交道而不是具体的文件系统块非常适合用于数据备份进而提供数据容错能力和可用性,以block为单位备份块缓存DataNode读写频繁的block会被存储在DataNode的内存中。一个bolck仅仅缓存在一个DataNode的内存中副本数hadoop默认保

2020-05-21 15:40:48 183

原创 hadoop-1 java 操作文件

hadoophdfs的安全模式HDFS与javaAPI开发Windows下hadoop环境变量配置文件系统配置项的3种重载方式新建,重命名、删除,上传hdfs的安全模式安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受只读数据请求,而不接受删除、修改等请求HDFS启动时,DataNode向NameNode注册汇报。汇报可用的block状态。NameNode判断有99.9%的block满足最小副本数(1,与设置的副本数无关)就会退出安全模式HDFS启动时,默认30秒处于安全期,过

2020-05-21 14:47:50 119

原创 hdfs常用配置文件

每个property的详细含义可参考官方文档(左下角Configuration一栏中):https://hadoop.apache.org/docs/r2.9.2/core-site.xml<configuration><!-- 文件系统地址,代码中设置连接配置时要用 --> <property> <name>fs.defaultFS</name> <value>hdfs://IP:802

2020-05-20 10:26:57 1661

原创 hadoop-fs.defaultFS

在java代码中配置hadoop需要调用 conf.set方法。此方法中要求传入name和value//源码 public void set(String name, String value) { set(name, value, null); }//配置代码 Configuration conf = new Configuration(); conf.set("fs:defaultFS","hdfs://node01:8020");此name和value实际上在 core-s.

2020-05-19 23:21:23 8347 1

转载 基于idea搭建Hadoop源码阅读环境

亲测可用。下载包的试试下载尾缀为src.tar.gz的Hadoop源码是这么做,其他源码环境也类似。1、到官网下载Hadoop源码包,例如hadoop-2.6.5-src.tar.gz.https://www-eu.apache.org/dist/hadoop/common/hadoop-2.6.5/2、将下载的源码包解压到某个目录下,记住这个目录,后面导入Idea时需要这个目录。3、打开Idea,点击Import Project选项卡。选择Import project from ext

2020-05-19 20:12:14 398

IDEA快捷键大全.zip

用户仅可上传其享有知识产权或已取得相关权利人合法授权的资源或内容,用户不得在未经授权的情况下,上传任何可能涉及侵权的资源或内容,用户必须保证上传资源或内容不侵犯任何第三方的合法权益。用户不得未经著作权人同意擅自对他人的作品进行全部或部分复制、修改、改编、翻译、汇编、反向工程、反向编译、反向汇编或改写并进行上传。用户可以为介绍、评论、研究等目的,在合理范围内依法引用他人已经发表的作品,但应当注明作者姓名、作品名称,且不得侵犯著作权人及其他权利人的合法权益

2020-07-14

工程文件设置输出

配置VS,按照库文件、头文件等给项目分类。

2016-11-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除