分片
andrewgb
这个作者很懒,什么都没留下…
展开
-
hadoop 之 将若干小文件打包成顺序文件
1.Why在hadoop的世界里,处理少量的大文件比处理大量的小文件更加得心应手。其中一个原因是FileInputFormat生成的分块是一个文件或该文件的一部分。如果文件很小(“小”意味着比HDFS的块要小的多),并且文件数量很多,那么每次map任务只处理很少的输入数据,(一个文件)就会有很多的map任务,每次map操作都会造成额外的开销。请比较一下把1GB的文件分割成16个64MB的块与100K原创 2015-11-01 21:24:20 · 1086 阅读 · 0 评论 -
hadoop 之 PathFilter -- 输入文件过滤器
1.指定多个输入在单个操作中处理一批文件,这是很常见的需求。比如说处理日志的MapReduce作业可能需要分析一个月内包含在大量目录中的日志文件。在一个表达式中使用通配符在匹配多个文件时比较方便的,无需列举每个文件和目录来指定输入。hadoop为执行通配提供了两个FileSystem方法:public FileStatus[] globStatus(Path pathPattern) throw I原创 2015-11-04 00:09:02 · 1425 阅读 · 0 评论 -
hadooop 之 FileInputFormat 类
1.FileInputFormat 类介绍 FileInputFormat 是所有使用文件作为数据源的 InputFormat 实现的基类 提供两个功能: 1.用于支出作业的输入文件的位置; 2.输入文件生成分片的实现代码段; 类结构图: 2.通过 FileInputFormat 指定输入路径2.1 指定路径FileInputFormat 提供的四种静态方法:public static v原创 2015-11-01 23:02:43 · 1127 阅读 · 0 评论 -
Hadoop 之 文件切分算法
文件切分算法主要用于确定 InputSplit 的个数,以及每个 InputSplit 对应的数据段。FileInputFormat 以文件为单位切分生成 InputSplit。对于新旧 MapReduce 有各自确定 InputSplit 大小的计算公式。在旧方法中,由以下三个属性值确定其对应的 InputSplit 的个数: 1. goalSize:根据用户期望的 InputSplit 数目计原创 2016-02-02 22:32:25 · 6824 阅读 · 0 评论