Hadoop_数据清洗示例

最新推荐文章于 2024-06-24 19:36:47 发布

BLUcoding

最新推荐文章于 2024-06-24 19:36:47 发布

阅读量4.3w

点赞数 1

分类专栏： Hadoop 文章标签：大数据 mapreduce hadoop 数据清洗

本文链接：https://blog.csdn.net/BLU_111/article/details/106079619

版权

Hadoop 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

Hadoop_数据清洗

示例（去除空行、开头为空格的数据）：

原始数据：D:\data\testdata.txt

zhangsan 500 450 jan
zhangsan 550 450 feb
 lisi 210 150 jan
 lisi 200 150 feb
zhangsan 400 150 march

zhangsan 600 500 april
 lisi 190 150 april
      800 100 jan
BLU 2000 200 feb
lisi 110 10 may

DataCleanMapper

package com.blu.dataclean;

import java.io.IOException;

import org.apache.commons.lang3.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class DataCleanMapper extends Mapper<LongWritable, Text, Text, NullWritable>{
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context)
			throws IOException, InterruptedException {
		String val = value.toString();
		String[] vals = val.split(" ");
		if(StringUtils.isEmpty(vals[0])) {
			//如果当前行的第一个值是空的，说明不是我们要的数据，直接返回。
			return;
		}
		context.write(value, NullWritable.get());
	}
}

DataCleanJob

package com.blu.dataclean;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class DataCleanJob {
	public static void main(String[] args) throws Exception {
		Job job = Job.getInstance();
		job.setJarByClass(DataCleanJob.class);
		job.setMapperClass(DataCleanMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(NullWritable.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(NullWritable.class);
		//设置任务数为0
		job.setNumReduceTasks(0);
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		boolean flag = job.waitForCompletion(true);
		System.exit(flag ?0 : 1);
	}
}

运行参数：

D:\data\testdata.txt D:\data\output

运行结果：

zhangsan 500 450 jan
zhangsan 550 450 feb
zhangsan 400 150 march
zhangsan 600 500 april
BLU 2000 200 feb
lisi 110 10 may

BLUcoding

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录