spark怎么用python java_Scala，Java，Python 3种语言编写Spark WordCount示例

最新推荐文章于 2022-11-27 22:44:03 发布

林展秋

最新推荐文章于 2022-11-27 22:44:03 发布

阅读量321

点赞数

文章标签： spark怎么用python java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31741827/article/details/114799233

版权

首先，我先定义一个文件，hello.txt，里面的内容如下：

hello spark

hello hadoop

hello flink

hello storm

Scala方式

scala版本是2.11.8。

配置maven文件，三个依赖：

org.apache.hadoop

hadoop-client

2.6.0-cdh5.7.0

org.scala-lang

scala-library

2.11.8

org.apache.spark

spark-core_2.11

2.2.0

packagecom.darrenchan.sparkimportorg.apache.spark.{SparkConf, SparkContext}

object SparkCoreApp2 {

def main(args: Array[String]): Unit={

val sparkConf= new SparkConf().setMaster("local[2]").setAppName("WordCountApp")

val sc= newSparkContext(sparkConf)//业务逻辑

val counts = sc.textFile("D:\\hello.txt").

flatMap(_.split(" ")).

map((_,1)).

reduceByKey(_+_)

println(counts.collect().mkString("\n"))

sc.stop()

}

}

运行结果：

Java方式

Java8，用lamda表达式。

packagecom.darrenchan.spark.javaapi;importorg.apache.spark.SparkConf;importorg.apache.spark.SparkContext;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.sql.SparkSession;importscala.Tuple2;importjava.util.Arrays;public classWordCountApp2 {public static voidmain(String[] args) {

SparkConf sparkConf= new SparkConf().setMaster("local[2]").setAppName("WordCountApp");

JavaSparkContext sc= newJavaSparkContext(sparkConf);//业务逻辑

JavaPairRDD counts =sc.textFile("D:\\hello.txt").

flatMap(line-> Arrays.asList(line.split(" ")).iterator()).

mapToPair(word-> new Tuple2<>(word, 1)).

reduceByKey((a, b)-> a +b);

System.out.println(counts.collect());

sc.stop();

}

}

运行结果：

Python方式

Python 3.6.5。

from pyspark importSparkConf, SparkContextdefmain():#创建SparkConf，设置Spark相关的参数信息

conf = SparkConf().setMaster("local[2]").setAppName("spark_app")#创建SparkContext

sc = SparkContext(conf=conf)#业务逻辑开发

counts = sc.textFile("D:\\hello.txt").\

flatMap(lambda line: line.split(" ")).\

map(lambda word: (word, 1)).\

reduceByKey(lambda a, b: a +b)print(counts.collect())

sc.stop()if __name__ == '__main__':

main()

运行结果：

使用Python在Windows下运行Spark有很多坑，详见如下链接：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark怎么用python java_Scala，Java，Python 3种语言编写Spark WordCount示例

首先，我先定义一个文件，hello.txt，里面的内容如下：hello sparkhello hadoophello flinkhello stormScala方式scala版本是2.11.8。配置maven文件，三个依赖：org.apache.hadoophadoop-client2.6.0-cdh5.7.0org.scala-langscala-library2.11.8org.apache....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。