java spark 单词统计_Spark单词统计笔记

最新推荐文章于 2021-12-30 17:39:50 发布

孙伟莲

最新推荐文章于 2021-12-30 17:39:50 发布

阅读量254

点赞数

文章标签： java spark 单词统计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32258919/article/details/114101368

版权

本文介绍了如何使用Java和Scala在Spark上实现单词统计。首先讲解了SparkContext的作用，然后通过Spark Shell演示了简单的WordCount操作。接着，展示了如何在Scala和Java中编写WordCount程序，包括加载文本、分割单词、映射和化简操作。最后，提到了在本地和Spark集群上提交作业的方法。

摘要由CSDN通过智能技术生成

1.sc

SparkContext,Spark程序的入口点，封装了整个spark运行环境的信息。

2.进入spark-shell

$>spark-shell

$scala>sc

API:

SparkContext

RDD:

resilient distributed dataset,弹性分布式数据集。等价于集合。

spark实现Wordcount

//加载文本文件，以换行符方式切割文本。Array(hello world2,hello world2,...)

val rdd1 = sc.textFile("/home/ubuntu/test.txt");

val rdd2 = rdd1.flatMap(line=>line.split(" "));

val rdd3 = rdd2.map(word=>(word,1));

val rdd4 = rdd3.reduceByKey(_+_);

rdd4.collect

一行代码：

scala> sc.textFile("/home/ubuntu/test.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

结果：

res2: Array[(String, Int)] = Array((world2,2), (world4,1), (hello,4), (world3,1))

过滤包含“wor”的单词

scala> sc.textFile("/home/ubuntu/test.txt").flatMap(_.split(" ")).filter(_.contains("wor")).map((_,1)).reduceByKey(_+_).collect

res3: Array[(String, Int)] = Array((world2,2), (world4,1), (world3,1))

windows下：

idea编写Scala程序，引入spark类库，完成wordcount

1.添加Scala框架支持，没有则安装Scala插件(2.11.8)

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
java spark 单词统计_Spark单词统计笔记

1.scSparkContext,Spark程序的入口点，封装了整个spark运行环境的信息。2.进入spark-shell$>spark-shell$scala>scAPI:SparkContextRDD:resilient distributed dataset,弹性分布式数据集。等价于集合。spark实现Wordcount//加载文本文件，以换行符方式切割文本。Array(hel...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。