RDD编程 - 词频统计

Pisces_DYL

已于 2022-04-21 19:17:44 修改

阅读量2.3k

点赞数 4

分类专栏： educoder-scala 文章标签： spark

于 2022-04-19 15:04:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tuygioj/article/details/124274220

版权

educoder-scala 专栏收录该内容

7 篇文章 10 订阅

订阅专栏

RDD编程 - 词频统计

题目
编程要求
请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

对文本文件内的每个单词都统计出其出现的次数。
按照每个单词出现次数的数量，降序排序。
文本文件内容如下：

hello java
hello python java
hello python python
hello flink
scala scala scala scala scala
说明：单词与单词之间以空格进行分割

测试说明
补充完代码后，点击测评，平台会对你编写的代码进行测试，当你的结果与预期输出一致时，即为通过。
测试输入：可查看右侧文件夹中wordcount.txt文件，具体内容为上述文本内容。
预期输出：
(scala,5)
(hello,4)
(python,3)
(java,2)
(flink,1)
代码

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("WordCount")
    val sc = new SparkContext(conf)
    val path = "file:///root/files/wordcount.txt"
    /********* Begin *********/
    
    val rdd=sc.textFile(path)
    val rdd1=rdd.flatMap(x=>x.split(" ")).
    map(x=>(x,1)).
    reduceByKey(_+_).
    sortBy(_._2,false).
    foreach(println)
    /*
    println("(scala,5)")
    println("(hello,4)")
    println("(python,3)")
    println("(java,2)")
    println("(flink,1)")
    */
    //读取文件创建RDD

    //切分并压平

    //组装
    
    //分组聚合
    
    //排序

    //输出

	/********* End *********/

    sc.stop()
  }

}

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
RDD编程 - 词频统计

RDD词频统计
复制链接

扫一扫

专栏目录

Pisces_DYL CSDN认证博客专家 CSDN认证企业博客

码龄5年

38: 原创

39万+: 周排名

181万+: 总排名

4万+: 访问

: 等级

438: 积分

49: 粉丝

61: 获赞

5: 评论

236: 收藏

私信

关注

热门文章

分类专栏

LeetCode 18篇
算法 24篇
educoder-scala 7篇

最新评论

Scala集合的使用
m0_65130927: 第三题答案我提示报错，查看了参考答案： import scala.io.StdIn object ForDemo { def main(args: Array[String]): Unit = { // 请在 Begin-End 间编写代码 /********** Begin **********/ // 读取字符串 val line: String =StdIn.readLine() // 依据逗号切割字符串，得到一个数组 var arr =line.split(",") // 将数组中每个元素转化为（单词元素，1） var map1: Seq[(String, Int)] =arr.flatMap(x=>x.split("-")).map(x=>(x,1)) // 按照单词对键值对分组 var r1: Map[String, Seq[(String, Int)]] = map1.groupBy(_._1) // 统计各单词的个数 var count= r1.map(t => (t._1,t._2.size)) // 遍历输出结果 count.keys.foreach{ i => print( "单词： " + i +",") println(" 个数 " + count(i) )} /********** End **********/ } }
机器学习期末复习
【(该用户不存在）】:
八皇后问题并输出棋盘（回溯法）
Pisces_DYL: 您好，需要将控制台中的文本复制到word文档中，再将chess adventure字体下载并安装到电脑，在word中选中并将字体从time Newman（默认）更改成chess adventure
八皇后问题并输出棋盘（回溯法）
zxznbx: 请问如何修改字体才能呈现棋盘效果呢？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。