java spark wordcount_提交任务到spark（以wordcount为例）

最新推荐文章于 2024-04-30 11:17:29 发布

想死人斌哥哥

最新推荐文章于 2024-04-30 11:17:29 发布

阅读量554

点赞数 1

文章标签： java spark wordcount

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29564301/article/details/114556854

版权

本文档详细介绍了如何使用Java和Scala实现Spark的WordCount程序，并通过spark-submit命令以及Java Web应用程序提交任务到Spark集群进行执行。内容包括搭建Hadoop+Spark环境、创建输入源、使用spark-shell测试、打包和运行jar包，以及通过Spring Boot Web应用提交Spark任务。

摘要由CSDN通过智能技术生成

1、首先需要搭建好hadoop+spark环境，并保证服务正常。本文以wordcount为例。

2、创建源文件，即输入源。hello.txt文件，内容如下：

tom jerry

henry jim

suse lusy

注：以空格为分隔符

3、然后执行如下命令：

hadoop fs -mkdir -p /Hadoop/Input(在HDFS创建目录)

hadoop fs -put hello.txt /Hadoop/Input(将hello.txt文件上传到HDFS)

hadoop fs -ls /Hadoop/Input (查看上传的文件)

hadoop fs -text /Hadoop/Input/hello.txt (查看文件内容)

4、用spark-shell先测试一下wordcount任务。

(1)启动spark-shell，当然需要在spark的bin目录下执行，但是这里我配置了环境变量。

(2)然后直接输入scala语句：

val file=sc.textFile("hdfs://hacluster/Hadoop/Input/hello.txt")

val rdd = file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

rdd.collect()

rdd.foreach(println)

ok，测试通过。

5、Scala实现单词计数

1 packagecom.example.spark2

3 /**4 * User: hadoop

5 * Date: 2017/8/17 0010

6 * Time: 10:20

7*/

8 importorg.apache.spark.SparkConf9 importorg.apache.spark.SparkContext10 importorg.apache.spark.SparkContext._11

12 /**13 * 统计字符出现次数

14*/

15object ScalaWordCount {16def main(args: Array[String]) {17 if (args.length < 1) {18 System.err.println("Usage: ")19 System.exit(1)20}21

22 val conf = newSparkConf()23 val sc = newSparkContext(conf)24 val line = sc.textFile(args(0))25

26 line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect().foreach(println)27

28sc.stop()29}30 }

6、用java实现wordcount

packagecom.example.spark;importjava.util.Arrays;importjava.util.List;importjava.util.regex.Pattern;import

最低0.47元/天解锁文章

想死人斌哥哥

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java spark wordcount_提交任务到spark（以wordcount为例）

1、首先需要搭建好hadoop+spark环境，并保证服务正常。本文以wordcount为例。2、创建源文件，即输入源。hello.txt文件，内容如下：tom jerryhenry jimsuse lusy注：以空格为分隔符3、然后执行如下命令：hadoop fs -mkdir -p /Hadoop/Input(在HDFS创建目录)hadoop fs -put hello.txt /Hadoop...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。