hadoop怎么处理海量小图片

最新推荐文章于 2024-04-24 20:37:12 发布

qq_33580952

最新推荐文章于 2024-04-24 20:37:12 发布

阅读量5.5k

点赞数 1

文章标签： hbase hadoop 存储图片 hdfs

本文链接：https://blog.csdn.net/qq_33580952/article/details/64921376

版权

1.方法原理：

系统借鉴Hbase存储的基本原理，提出以“状态标记位”的方法为当前并不能完美支持追加处理的HDFS的Mapfile文件提供了一种有效的解决方法，既解决了HDFS小文件存储的问题，又解决了Mapfile即时修改的问题。

2.方法介绍：

在海量图片背景中，图片的存储形式探讨就成为了保证系统性能的重要部分。HDFS存在普遍的小文件存储的通病，对小文件的读取通常会造成大量从datanode到datanode的seeks和hopping来retrieve文件，而这样是非常的低效的一种访问方式。因此对于大小远小于HDFS的块大小的文件，需要进行处理后再存入HDFS中。几乎所有的图片都远远小于64M（HDFS默认数据块大小），处理这些大量的小图片就需要某种形式的容器来通过某种方式来打包这些file。Hadoop提供了一些选择。主要可以选择的有HARfile、Sequencefile、Mapfile。本系统采用了Mapfile作为小文件的容器存储。同时，若对于所有小于64M的图片均进行打包，则会加大打包文件的过程的资源损耗，因此需要定一个阈值，当文件大小超过该阈值后进行打包操作，否则直接通过namenode进行上传。本系统所定的阈值为2MB。此外，由于Hadoop在最新的版本才支持文件的追加append操作，但对于Mapfile还没有完善的支持。这意味着若用原始处理方法，每一次上传操作将会重写原Mapfile，效率低下。本系统采用了“标记法”对Mapfile打包小文件时的增删改查进行处理，保证了图片存储访问的效率。

3.具体实现：

图片基本操作包括图片的增加、删除、修改和查询。由于图片存储在HDFS的特殊环境，因此图片的增删改查操作需要进行特殊的处理。由于mapfile不支持追加写入操作，这样每次进行操作需要对原mapfile文件进行覆盖写入，效率低下。为了实现相应功能，本系统对Hbase中存储的图片元数据增加了一个状态标志位，该状态位可能的取值为“HdfsLargeFile”，“HdfsMapflie”，“LocalSmallFile”以及“Deleted”四种。每次上传操作会进行会进行文件大小判断，并对其进行相应处理，更新标志位。对于mapfile的增加操作，本系统使用了写缓存队列的操作进行支持。每次用户的上传操作之后，会将图片写入到本地队列，标志位为“LocalSmallFile”，当队列到达指定上传阈值后，再启动线程进行打包，并且更新标志位为“HdfsMapfile”。

4.代码实现

在HDFS上存储文件，大量的小文件是非常消耗NameNode内存的，因为每个文件都会分配一个文件描述符，NameNode需要在启动的时候加载全部文件的描述信息，所以文件越多，对

NameNode来说开销越大。
我们可以考虑，将小文件压缩以后，再上传到HDFS中，这时只需要一个文件描述符信息，自然大大减轻了NameNode对内存使用的开销。MapReduce计算中，Hadoop内置提供了如下几

种压缩格式：

DEFLATE
gzip
bzip2
LZO

使用压缩文件进行MapReduce计算，它的开销在于解压缩所消耗的时间，在特定的应用场景中这个也是应该考虑的问题。不过对于海量小文件的应用场景，我们压缩了小文件，却换

来的Locality特性。
假如成百上千的小文件压缩后只有一个Block，那么这个Block必然存在一个DataNode节点上，在计算的时候输入一个InputSplit，没有网络间传输数据的开销，而且是在本地进行

运算。倘若直接将小文件上传到HDFS上，成百上千的小Block分布在不同DataNode节点上，为了计算可能需要“移动数据”之后才能进行计算。文件很少的情况下，除了NameNode内

存使用开销以外，可能感觉不到网络传输开销，但是如果小文件达到一定规模就非常明显了。
下面，我们使用gzip格式压缩小文件，然后上传到HDFS中，实现MapReduce程序进行任务处理。
使用一个类实现了基本的Map任务和Reduce任务，代码如下所示：

 
package org.shirdrn.kodz.inaction.hadoop.smallfiles.compression;
 
 
 
import java.io.IOException;
 
import java.util.Iterator;
 
 
 
import org.apache.hadoop.conf.Configuration;
 
import org.apache.hadoop.fs.Path;
 
import org.apache.hadoop.io.LongWritable;
 
import org.apache.hadoop.io.Text;
 
import org.apache.hadoop.io.compress.CompressionCodec;
 
import org.apache.hadoop.io.compress.GzipCodec;
 
import org.apache.hadoop.mapreduce.Job;
 
import org.apache.hadoop.mapreduce.Mapper;
 
import org.apache.hadoop.mapreduce.Reducer;
 
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 
import org.apache.hadoop.util.GenericOptionsParser;
 
 
 
public class GzipFilesMaxCostComputation {
 
 
 
    public static class GzipFilesMapper extends Mapper<LongWritable, Text, Text, LongWritable> {
 
 
 
        private final static LongWritable costValue = new LongWritable(0);
 
        private Text code = new Text();
 
 
 
        @Override
 
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
 
            // a line, such as 'SG 253654006139495 253654006164392 619850464'
 
            String line = value.toString();
 
            String[] array = line.split("\\s");
 
            if (array.length == 4) {
 
                String countryCode = array[0];
 
                String strCost = array[3];
 
                long cost = 0L;
 
                try {
 
                    cost = Long.parseLong(strCost);
 
                } catch (NumberFormatException e) {
 
                    cost = 0L;
 
                }
 
                if (cost != 0) {
 
                    code.set(countryCode);
 
                    costValue.set(cost);
 
                    context.write(code, costValue);
 
                }
 
            }
 
        }
 
    }
 
 
 
    public static class GzipFilesReducer extends Reducer<Text, LongWritable, Text, LongWritable> {
 
 
 
        @Override
 
        protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
 
            long max = 0L;
 
            Iterator<LongWritable> iter = values.iterator();
 
            while (iter.hasNext()) {
 
                LongWritable current = iter.next();
 
                if (current.get() > max) {
 
                    max = current.get();
 
                }
 
            }
 
            context.write(key, new LongWritable(max));
 
        }
 
 
 
    }
 
 
 
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
 
 
 
        Configuration conf = new Configuration();
 
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
 
        if (otherArgs.length != 2) {
 
            System.err.println("Usage: gzipmaxcost <in> <out>");
 
            System.exit(2);
 
        }
 
 
 
        Job job = new Job(conf, "gzip maxcost");
 
 
 
        job.getConfiguration().setBoolean("mapred.output.compress", true);
 
        job.getConfiguration().setClass("mapred.output.compression.codec", GzipCodec.class, CompressionCodec.class);
 
 
 
        job.setJarByClass(GzipFilesMaxCostComputation.class);
 
        job.setMapperClass(GzipFilesMapper.class);
 
        job.setCombinerClass(GzipFilesReducer.class);
 
        job.setReducerClass(GzipFilesReducer.class);
 
 
 
        job.setMapOutputKeyClass(Text.class);
 
        job.setMapOutputValueClass(LongWritable.class);
 
        job.setOutputKeyClass(Text.class);
 
        job.setOutputValueClass(LongWritable.class);
 
 
 
        job.setNumReduceTasks(1);
 
 
 
        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
 
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
 
 
 
        int exitFlag = job.waitForCompletion(true) ? 0 : 1;
 
        System.exit(exitFlag);
 
 
 
    }
 
}

上面程序就是计算最大值的问题，实现比较简单，而且使用gzip压缩文件。另外，如果考虑Mapper输出后，需要向Reducer拷贝的数据量比较大，可以考虑在配置Job的时候，指定

压缩选项，详见上面代码中的配置。

qq_33580952

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
hadoop怎么处理海量小图片

1.方法原理：系统借鉴Hbase存储的基本原理，提出以“状态标记位”的方法为当前并不能完美支持追加处理的HDFS的Mapfile文件提供了一种有效的解决方法，既解决了HDFS小文件存储的问题，又解决了Mapfile即时修改的问题。2.方法介绍：在海量图片背景中，图片的存储形式探讨就成为了保证系统性能的重要部分。HDFS存在普遍的小文件存储的通病，对小文件的读取通常会造成大量从datan
复制链接

扫一扫