SequenceFileInputFormat用法

最新推荐文章于 2020-04-09 15:11:15 发布

技术蚂蚁

最新推荐文章于 2020-04-09 15:11:15 发布

阅读量844

点赞数

分类专栏： Hadoop

Hadoop 专栏收录该内容

72 篇文章 3 订阅

订阅专栏

SequenceFileInputFormat只能处理SequenceFile类型的文件。

代码：

[java] view plain copy print ?

package inputformat;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;
//用之前SequenceFile类型的文件作为处理数据，用那个for循环生成的数据，那个数据指定的类型是<LongWritable,Text>
//SequenceFileInputFormat只能处理SequenceFile类型的数据
public class SequenceFileInputFormatTest {
public static class MyMapper extends
Mapper<LongWritable, Text, Text, LongWritable> {
final Text k2 = new Text();
final LongWritable v2 = new LongWritable();
protected void map(LongWritable key, Text value,
Mapper<LongWritable, Text, Text, LongWritable>.Context context)
throws InterruptedException, IOException {
final String line = value.toString();
final String[] splited = line.split("\\s");
for (String word : splited) {
k2.set(word);
v2.set(1);
context.write(k2, v2);
}
}
}
public static class MyReducer extends
Reducer<Text, LongWritable, Text, LongWritable> {
LongWritable v3 = new LongWritable();
protected void reduce(Text k2, Iterable<LongWritable> v2s,
Reducer<Text, LongWritable, Text, LongWritable>.Context context)
throws IOException, InterruptedException {
long count = 0L;
for (LongWritable v2 : v2s) {
count += v2.get();
}
v3.set(count);
context.write(k2, v3);
}
}
public static void main(String[] args) throws Exception {
final Configuration conf = new Configuration();
final Job job = Job.getInstance(conf, SequenceFileInputFormatTest.class.getSimpleName());
// 1.1
FileInputFormat.setInputPaths(job,
"hdfs://192.168.1.10:9000/sf1");
//这里改了一下，把TextInputFormat改成了SequenceFileInputFormat
job.setInputFormatClass(SequenceFileInputFormat.class);
// 1.2
job.setMapperClass(MyMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(LongWritable.class);
// 1.3 默认只有一个分区
job.setPartitionerClass(HashPartitioner.class);
job.setNumReduceTasks(1);
// 1.4省略不写
// 1.5省略不写
// 2.2
job.setReducerClass(MyReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(LongWritable.class);
// 2.3
FileOutputFormat.setOutputPath(job, new Path(
"hdfs://192.168.1.10:9000/out1"));
job.setOutputFormatClass(TextOutputFormat.class);
// 执行打成jar包的程序时，必须调用下面的方法
job.setJarByClass(SequenceFileInputFormatTest.class);
job.waitForCompletion(true);
}
}

生成SequenceFile类型的文件，供上述SequenceFileInputFormat使用，作为输入数据：

[java] view plain copy print ?

package sequenceFile;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import org.apache.zookeeper.common.IOUtils;
//for循环读写操作演示
public class Forduxie {
public static void main(String args[]) throws Exception {
final Path path = new Path("/sf1");
Configuration conf = new Configuration();
final FileSystem fs = FileSystem.get(new URI("hdfs://192.168.1.10:9000/"), conf);
@SuppressWarnings("deprecation")
final SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf,path, LongWritable.class,Text.class);
for (int i = 0; i < 10; i++) {
writer.append(new LongWritable(i), new Text(i+"=_="));
}
IOUtils.closeStream(writer);
@SuppressWarnings({ "deprecation" })
final SequenceFile.Reader reader = new SequenceFile.Reader(fs, path,conf);
LongWritable key = new LongWritable();
Text val = new Text();
while (reader.next(key, val)) {
System.out.println(key.get() + "\t" + val.toString());
}IOUtils.closeStream(reader);
}
}

如果创建的是Maven项目，需要在pom包里添加：

[java] view plain copy print ?

<span style="white-space:pre"> </span><dependency>
<groupId>commons-io</groupId>
<artifactId>commons-io</artifactId>
<version>2.4</version>
</dependency>

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SequenceFileInputFormat用法

SequenceFileInputFormat只能处理SequenceFile类型的文件。代码：[java] view plain copy print?package inputformat; import java.io.IOException; import org.apache.hadoop.conf.Configuration; im
复制链接

扫一扫

专栏目录

技术蚂蚁 CSDN认证博客专家 CSDN认证企业博客

码龄11年

17: 原创

17万+: 周排名

161万+: 总排名

38万+: 访问

: 等级

4278: 积分

120: 粉丝

56: 获赞

15: 评论

171: 收藏

私信

关注

热门文章

分类专栏

Hadoop 72篇
Spark 88篇
Zookeeper 2篇
Kafka 27篇
Eclipse 10篇
Linux 8篇
Oracle 3篇
Spring 3篇
JAVA线程 1篇
Java Mail 1篇
Java Web 3篇
Hive 13篇
spark ML 16篇
Spark优化 7篇
Spark源码 15篇
Yarn 11篇
Hadoop example 19篇
Java Thread 2篇
Redis 8篇
电脑 1篇
Maven 3篇
spark Sql 2篇
Java 6篇
JVM 4篇
时政 1篇
tensorflow 1篇
数据分析算法 1篇

最新评论

FCM聚类算法介绍
C语迷途: 博主，你这篇文章分享里面的公式都没有显示，还望博主更新一下。
hadoop 去重/排序/表关联/等
大概是犬青: 你这不是纯纯抄袭吗 https://blog.csdn.net/lzq123_1/article/details/40895705
<jsp:include>和<%@include%>的区别
꯭邓꯭文꯭豪꯭: 真的太舒服了！我还在读大学，老师布置了三道思考题动静态包含的区别就是其中一个，看了其他人的都是直接硬搬定义还有标着原创但就是抄袭的文章。您写的这篇文章直接从实例出发，这两者的区别显而易见，很有说服力，帮大忙了，谢谢！
使用redis缓存数据需要注意的问题以及个人的一些思考和理解
路飞飞飞飞飞飞～: 感谢
通过编程方式获取Kafka中Topic的Metadata信息
zengqinn123: 用kafka的 adminClient

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。