需求
需求还是那个需求啊!!
删除文件中缺失值大于三个的记录,并输出删除行数
分析及实现
- 数据
编写了一个1.csv用作测试数据,其中满足删除条件即缺失值大于三个的数据有4行,是所有偶数行,进行清洗之后,保留的数据有5行,是所有奇数行,文件具体数据内容如下:
1,l1,l2,l3,l4,l5,l6,l7,l8,l9
2,l1,NULL,NULL,NULL,NULL,l6,l7,l8,l9
3,l1,l2,l3,l4,l5,l6,l7,l8,l9
4,l1,NULL,l3,l4,NULL,NULL,l7,l8,NULL
5,l1,l2,l3,l4,l5,l6,l7,l8,l9
6,NULL,NULL,NULL,l4,l5,l6,l7,l8,NULL
7,l1,l2,l3,l4,l5,l6,l7,l8,l9
8,NULL,l2,NULL,l4,NULL,l6,l7,l8,NULL
9,l1,NULL,l3,l4,l5,l6,l7,l8,l9
- MR程序 打jar包
啥也不说了,直接放代码:
map.java
import com.alibaba.fastjson.JSONObject;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class t3map extends Mapper<LongWritable, Text,Text, NullWritable> {
Text text=new Text();
/* 创建枚举类型
存放最终输出行数和处理的总行数
两者差值为被删除的数据的函数
*/
public enum FileRecorder{
OutputRecorder,TotalRecorder
}
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String v=value.toString();
//对数据进行初始化 并调用函数对数据进行处理
String rawValue=PreProcessData(v);
String ret=deleteOver3(splitString(rawValue));
//对所有处理的行数计数
context.getCounter(FileRecorder.TotalRecorder).increment(1);
//判断数据是否为空
if(CheckDate(ret)){
text.set(ret);
//对非空即可输出的数据进行计数
context.getCounter(FileRecorder.OutputRecorder).increment(1);
context.write(text,NullWritable.get());
}
}
/*
对数据进行预处理
清洗去除掉奇奇怪怪的字符串
*/
private String PreProcessData(String value){
String retValue=value.toString();
retValue=retValue.replace("//t","");
retValue=retValue.replace("ux5123","");
retValue=retValue.replace("Xoee","");
return retValue;
}
/*
对数据进行切分,以逗号分隔
*/
private String[] splitString(String value){
String[] v=value.split(",");
return v;
}
/*
删除缺失值大于三个的数据
如果缺失值大于三个 就返回空值,否则返回字符串本身的值
*/
private String deleteOver3(String[] v){
int n=0;
String st="";
for(int i=0;i<v.length;i++){
if(v[i].equals("NULL")){
n++;
}
st=st+v[i];
if(i!=v.length-1){
st+=",";
}
}
if(n>3){
return "";
}
return st;
}
/*
对字符串进行判断,如果是空的即被删除了,返回false
以后将不对这行数据进行写入输出处理
否则返回true 会对数据进行输出处理
*/
private boolean CheckDate(String str){
if(str.equals("")){
return false;
}
return true;
}
}
driver.java
(因为driver每次写的基本上都差不多 所以只对计数器输出那部分做解释)
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class t3driver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
job.setJarByClass(t3driver.class);
job.setMapperClass(t3map.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
Path path = setPath(job);
path.getFileSystem(conf).delete(path, true);
int s=job.waitForCompletion(true) ? 0 : 1;
//如果程序运行成功了 则s=0
if(s==0){
// 定义一个long类型的tot变量 获取计数器里对文件总处理行数的计数并存储
long tot=job.getCounters().findCounter(t3map.FileRecorder.TotalRecorder).getValue();
// 定义一个long类型的out变量 获取计数器里对文件输出行数的计数并存储
long out=job.getCounters().findCounter(t3map.FileRecorder.OutputRecorder).getValue();
//定义一个long类型的变量del 获取总行数和输出行数的差值 即删除的行数
long del=tot-out;
//对删除的行数进行输出
System.out.println("---\n\ndeleteLine:"+del+"\n\n---");
}
System.exit(s);
}
private static Path setPath(Job job) throws IOException {
FileInputFormat.addInputPath(job, new Path("hdfs:/data/spark_data2/h3cu/1.csv"));
Path path = new Path("hdfs:/data/output");
FileOutputFormat.setOutputPath(job, path);
return path;
}
}
打jar包 命名为task2_1.jar
- 在spark中运行
到spark目录下,运行以下代码
bin/spark-submit --master local --name task --class t3driver /data/task2_1.jar
其中 name是程序名
class是main方法所在的文件的全名
/data/task2_1.jar是jar包所在位置
结果分析
结果截图: