多文件的wc程序【java版】

package sanjin;

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SparkSession;
import scala.Tuple2;

import java.util.Arrays;

/**
 * Description: java 版本的多文件的wc程序
 *
 * mvn clean install
 * rz jar
 * ./bin./submit --class sanjin.JavaWordCount /home/hadoop/jar/test1.0.jar /spark-test/input /spark-test/javaoutput
 *      命令                 方法名            jar 包位置               输入文件位置       文件输出位置
 * @Author: 留歌36
 * @Date: 2019/3/6 16:42
 */
public class JavaWordCount {

    public static void main(String[] args) {
        String inputPath =args[0];
        String outputPath = args[1];

        SparkSession sparkSession = SparkSession.builder()
                .appName(Thread.currentThread().getStackTrace()[1].getClassName())
//                .master("local[2]")
                .getOrCreate();

        JavaSparkContext sc = new JavaSparkContext(sparkSession.sparkContext());


        JavaPairRDD<String,String> textFiles = sc.wholeTextFiles(inputPath);
        JavaPairRDD<String,Integer> counts = textFiles.flatMap(s -> Arrays.asList(s._2.split("\\s+")).iterator())
                .mapToPair(word -> new Tuple2<String, Integer>(word, 1))
                .reduceByKey((x, y) -> x+y);

        counts.saveAsTextFile(outputPath);

        sparkSession.stop();


    }

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值