hadoop学习；自定义Input/OutputFormat；类引用mapreduce.mapper；三种模式

最新推荐文章于 2024-05-16 17:17:19 发布

果冻还不错

最新推荐文章于 2024-05-16 17:17:19 发布

阅读量744

点赞数

hadoop分割与读取输入文件的方式被定义在InputFormat接口的一个实现中，TextInputFormat是默认的实现，当你想要一次获取一行内容作为输入数据时又没有确定的键，从TextInputFormat返回的键为每行的字节偏移量，但目前没看到用过

以前在mapper中曾使用LongWritable（键）和Text（值），在TextInputFormat中，因为键是字节偏移量，可以是LongWritable类型，而当使用KeyValueTextInputFormat时，第一个分隔符前后都是Text类型，所以你必须修改mapper的实现以及map（）方法来适应这个新键类型

一个MapReduce的输入不一定是外部数据，常常是一些其他MapReduce的输出数据，还可以自定义输出格式，默认的输出格式与KeyValueTextInputFormat能够读取的的数据格式保持一致（记录中的每行均为一个由制表符分隔的键和值），不过Hadoop提供了更加有效的二进制压缩文件格式，称为序列文件，这个序列文件为hadoop处理做了优化，当连接多个MapReduce作业时，它是首选，读取序列文件的类为SequenceFileInputFormat，序列文件的键和值对象可以由用户自定义，输出和输入类型必须匹配

自定义InputFormat，实现两个方法：

getSplit（）确定所有用于输入数据的文件，并将输入数据分割为输入分片，每个map任务处理一个分片

getRecordReader（）循环提取给定分片中的记录，并解析每个记录为预定义类型的键和值

在实际情况中一个分片总是以数据块为大小，在HDFS中默认一个块为64MB

FileInputFormat中isSplitable（）方法，检查你是否可以将给定文件分片，默认返回为true，有时你可能想要一个文件为其自身的分块，这时可以设定返回为false

LineRecordReader实现RecordReader，基于实现的封装，大多数操作存放在next中

我们通过扩展FileInputFormat生成我们的InputFormat类，并实现一个factory方法来返回recordreader

除了类的构建之外，TimeUrlRecordReader会在RecordReader实现6种方法，它主要在KeyValueInputFormat之外的一个封装，但吧记录的Text类型转换为URLWritable

输出数据到文件时，使用的是OutputFormat，因为每个reducer仅需将它的输出写入自己的文件中，输出不需要分片。

输出文件放在一个公用目录中，通常命名为part-nnnnn，这里的nnnnn是reducer的分区ID，RecordWriter对输出结果进行格式化，而RecordReader对输入格式进行解析

NullOutPutFormat简单的实现了OutputFormat，无输出，并不需要继承FileOutputFormat。更主要的是OutputFormat（InputFormat）处理的是数据库，并非文件

个性化输出可以在继承了FileOutputFormat的类中的封装的继承RecordReader类中的write（）方法，如果不只想输出到文件中

jar -xvf ../example.jar 解压jar包

向hdfs迁移本地文件可以，程序中地址别写错了，别写成其他不关联的机子上的

在eclipse中写完程序，打成jar包，放到hadoop文件夹下，运行hadoop指令可以查看结果

若运用第三方插件fatjar，将mapreduce的jar包和jedis的jar包整合到一起放入hadoop，这样不需要修改manifest配置信息

搭建三种模式，一般默认单机模式：不使用HDFS，也不加载任何守护进程，主要用于开发调试

伪分布模式在“单节点集群”上运行hadoop，其中所有守护进程都在一台机子上，增加了代码调试功能，允许检查内存使用情况，HDFS输入输出，以及其他的守护进程交互

全分布模式，真实情况用这种模式，强调分布式存储和分布式计算，明确声明了NameNode和JobTracker守护进程所在的主机名。增大了HDFS备份参数发挥分布式存储优势

果冻还不错

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习；自定义Input/OutputFormat；类引用mapreduce.mapper；三种模式

hadoop分割与读取输入文件的方式被定义在InputFormat接口的一个实现中，TextInputFormat是默认的实现，当你想要一次获取一行内容作为输入数据时又没有确定的键，从TextInputFormat返回的键为每行的字节偏移量，但目前没看到用过以前在mapper中曾使用LongWritable（键）和Text（值），在TextInputFormat中，因为键是字节偏移量，可以
复制链接

扫一扫