Hadoop
天地不仁以万物为刍狗
天之道,损有余而补不足
人之道,损不足以奉有馀
展开
-
学习笔记 - HADOOP中的CRC数据校验文件
概要Hadoop系统为了保证数据的一致性,会对文件生成相应的校验文件(.crc文件),并在读写的时候进行校验,确保数据的准确性。在本地find -name *.crchadoop比较适合做离线处理,这个是众所周知的,而且hdfs为了保证数据的一致性,每次写文件时,针对数据的io.bytes.per.checksum字节,都会创建一个单独的校验和。默认值为512字节,因为crc-32校验...转载 2018-12-27 17:29:40 · 3091 阅读 · 0 评论 -
学习笔记 - Hadoop OutputFormat committer 浅谈
总结Hadoop OutputFormat 大体可以分为三部分功能1,写文件 -- (各种文件格式 avro, parquet seqence)2, 验证 -- 各种验证3, committer 把文件提交到哪里,怎么提交,提交的路径等功能转:在 Hadoop中,OutputFormat和InputFormat是相对应的两个东西。相比于InputFormat,Ou...转载 2019-01-24 14:56:06 · 240 阅读 · 0 评论 -
学习笔记 - Hadoop InputFormat 浅谈
在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发:1、运行mapred程序;2、本次运行将生成一个Job,于是Job...转载 2019-01-25 14:16:16 · 184 阅读 · 0 评论 -
Mark - HDFS性能压测工具
引言Hadoop生态圈的基石有两个,一个是HDFS文件系统,一个是MR编程框架。第一弹中提到应用MR编程框架实现大规模多机联合负载压测场景的方案,则突出了MR的能力,实际上HDFS作为这一切的基础,所起的作用是不容忽视的。HDFS分布式文件系统与一般的文件系统,从本质构成上来说并没有太大的区别,普通磁盘上的文件系统,例如ext3有数据块(block),HDFS也有这个概念,ext3的分区表...转载 2019-02-15 10:07:02 · 614 阅读 · 0 评论 -
Hadoop - OutputFormat中OutputCommitter解析
在 Hadoop中,OutputFormat和InputFormat是相对应的两个东西。相比于InputFormat,OutputFormat似乎没 有那么多细节。InputFormat涉及到对输入数据的解析和划分,继而影响到Map任务的数目,以及Map任务的调度。而OutputFormat似乎像其字面意思那样,仅仅是完成对输出数据的格式化。对于输出数据的格式化,这个应该没什么值得多说的。根据...转载 2019-02-27 17:19:47 · 588 阅读 · 0 评论 -
Hadoop - Hadoop中CombineFileInputFormat 理解
CombineFileInputFormat作用:将多个小文件打包成一个InputSplit提供给一个Map处理,避免因为大量小文件问题,启动大量任务。CombineFileInputFormat是一种新的inputformat,用于将多个文件合并成一个单独的split,另外,它会考虑数据的存储位置CombineFileInputFormat 原理第一次:将同DN上的所有block...转载 2019-03-05 13:39:15 · 333 阅读 · 0 评论 -
Hadoop - hadoop中mr处理大量小文件
HDFS本身被设计来存储大文件,但是有时难免会有小文件出现,有时很可能时大量的小文件。通过MapReduce处理大量小文件时会遇到些问题。MapReduce程序会将输入的文件进行分片(Split),每个分片对应一个map任务,而默认一个文件至少有一个分片,一个分片也只属于一个文件。这样大量的小文件会导致大量的map任务,导致资源过度消耗,且效率低下。Hadoop自身包含了CombineFile...转载 2019-03-07 17:24:26 · 511 阅读 · 0 评论