idea spark远程调试

最新推荐文章于 2022-06-15 19:46:25 发布

原创最新推荐文章于 2022-06-15 19:46:25 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

本文档提供了Spark集群的搭建教程链接，并通过一个Java示例程序展示了如何使用Spark进行基本的数据过滤和计数操作。该示例程序加载了HDFS上的文件，使用filter操作过滤出包含特定字符的行，并计算这些行的数量。

搭建spark集群教程可参考博客园http://www.cnblogs.com/purstar/p/6293605.html

建立maven项目，pom配置参考spark官网例子

import org.apache.spark.api.java.*;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.Function;

public class Test {
    public static void main(String[] args) {
        String logFile = "hdfs://master:9000/Hadoop/Input/README.md"; // Should be some file on your system
        SparkConf conf = new SparkConf().setAppName("Simple Application").setMaster("spark://master:7077")
                .setJars(new String[]{"D:\\repo\\org\\deng\\SparkTest\\1.0-SNAPSHOT\\SparkTest-1.0-SNAPSHOT.jar"});
        //注意设置jar包路径，以免报找不到class的异常
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<String> logData = sc.textFile(logFile,2).cache();

        long numAs = logData.filter(new Function<String, Boolean>() {
            public Boolean call(String s) { return s.contains("a"); }
        }).count();

        long numBs = logData.filter(new Function<String, Boolean>() {
            public Boolean call(String s) { return s.contains("b"); }
        }).count();

        System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs);

        sc.stop();
    }
}

运行main方法即可