前言:
java 代码编写spark 的wordCount 使用的方法和scala 基本相同
除了生成(单词,1)时候使用的是mapToPair() 方法,代替了map()
因为在java中生成kv类型RDD 需要使用xxToPair 方法
而且java 中没有sortBy 中有soarBykey
public class SparkWc {
public static void main(String[] args) {
//设置运行模式 运行模式总共有四种 local standalone yarn mesos
//webUi显示 application 名称
//设置集群计算资源
SparkConf conf = new SparkConf().setAppName("JavaWc").setMaster("local").set("spark.executor.memory", "1g");
//远程链接hadoop
Properties properties = System.getProperties();
properties.setProperty("HADOOP_USER_NAME", "root");
//spark 的一个core 只能跑一个线程***
// 四核八线程可以给spark提供8个核
//SparkContext sc = new SparkContext(conf); java 使用的是javaSparkContext scala 使用的是SparkContext
JavaSparkContext sc = new JavaSparkContext(conf);
//Rdd理解为数据