spark环境下实现 CountOnce(NumOnce)

(还在学习spark的初级阶段,将书上scala实现的例子用java写出来)
已知一个数组,数组中只有一个数据是出现一次的,其他数据是出现两次的,将出现一次的数据找出。
其中要处理的数字都放在一个文件里面,以空格分隔。


import java.util.ArrayList;
import java.util.Arrays;
import java.util.Iterator;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;

public class NumOnce
{
    public static void main(String[] args)
    {
        SparkConf conf=new SparkConf().setAppName("topK")
                .setMaster("spark://master:7077")
                .setJars(new String[]{"hdfs://master:9000/user/hadoop/NumOnce.jar"});
        JavaSparkContext jsc=new JavaSparkContext(conf);

        int data=
                //读取数据
                jsc.textFile("hdfs://master:9000/user/hadoop/data")
                //数字按照" "分隔,提取出数字。
                .flatMap(new FlatMapFunction<String,String>()
                        {
                            @Override
                            public Iterable<String> call(String t)
                                    throws Exception
                            {
                                // TODO Auto-generated method stub
                                return Arrays.asList(t.split(" "));
                            }
                        })
                //数据读进来时默认是String类型,为了进行异或操作将其转换成int
                .map(x->Integer.parseInt(x))
                //将各分区分别异或
                .mapPartitions(new FlatMapFunction<Iterator<Integer>,Integer>()
                        {
                            @Override
                            public Iterable<Integer> call(Iterator<Integer> t)
                                    throws Exception
                            {
                                // TODO Auto-generated method stub
                                int temp=t.next();
                                while(t.hasNext())
                                {
                                    temp^=t.next();
                                }
                                ArrayList<Integer> kk=new ArrayList<Integer>();
                                kk.add(temp);
                                return kk;
                            }

                        }
                )
                //将各个分区异或的结果进行异或
                .reduce((a,b)->a^b);

        System.out.println(data);
        jsc.close();

    }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值