sprak 使用java8新特性lamada实现单词统计


import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

import scala.Tuple2;

import java.util.Arrays;

/**
 * spark读取本地文件进行单词个数计算
 */
public class SparkWc{
    public static void main(String [] args){
        //本地测试,一定要设置setMaster为local
        SparkConf sparkConf = new SparkConf().setMaster("local").setAppName("wc");
        JavaSparkContext sc = new JavaSparkContext(sparkConf);
        JavaRDD<String> lines = sc.textFile("D:\\a.txt");
        //从文件读取一行分隔
        JavaRDD<String> words = lines.flatMap(line -> Arrays.asList(line.split(" ")).iterator());
        JavaPairRDD<String,Integer> pairRDD = words.mapToPair(word -> new Tuple2<String,Integer>(word,1));
        JavaPairRDD<String,Integer> pairRDD1 = pairRDD.reduceByKey((value1,value2) -> value1 + value2);
        //注意传递元组作为参数的时候,一定要加上括号
        JavaPairRDD<Integer,String> pairRDD2 = pairRDD1.mapToPair((Tuple2<String,Integer> tuple2) ->
                new Tuple2<Integer,String>(Integer.valueOf(tuple2._2.toString()),String.valueOf(tuple2._1)));
        JavaPairRDD<String,Integer> pairRDD3 = pairRDD2.sortByKey(false).mapToPair((Tuple2<Integer,String> tuple2) ->
                new Tuple2<String,Integer>(tuple2._2.toString(),Integer.valueOf(tuple2._1.toString())));
        pairRDD3.foreach(wc -> System.out.println(wc));
        //将结果写入b文件夹
        pairRDD3.saveAsTextFile("D:\\b");
        sc.close();
    }
}

 

maven配置:

       <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.0.2</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>2.0.2</version>
        </dependency>

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值