scala实现目标txt文件中单词的总数、最大数及最小数的计算

最新推荐文章于 2022-06-18 11:26:41 发布

soul,,,明灵

最新推荐文章于 2022-06-18 11:26:41 发布

阅读量401

点赞数

分类专栏：机器学习/大数据

本文链接：https://blog.csdn.net/soul_mingling/article/details/118485562

版权

Scala Spark SQL TXT文件单词统计数据处理

关键词由CSDN通过智能技术生成

机器学习/大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

scala实现目标txt文件中单词的总数、最大数及最小数的计算

注意：需要配置本机的hadoop环境
txt文件内容：
hello scale
hello hadoop
hello spark
输出：
在这里插入图片描述

在这里插入图片描述

package SparkOnHDFS.sample

import core.Boot
import org.apache.spark.sql.Dataset

object SparkSqlWordCount {
  def main(args: Array[String]): Unit = {
    val sparkSession = Boot.bootstraplocal

    val dataset = sparkSession.read.textFile("src/main/resources/demo/wordcount.txt")
    dataset.show()

    import sparkSession.implicits._
    val words : Dataset[String] = dataset.flatMap(row => {
      row.split(" ")
    })
    words.show()
    val wordKeys=words.groupBy("value").count()
    wordKeys.show()

    wordKeys.createTempView("wordkvs")
    val wordkvs=sparkSession.sql("SELECT SUM(count),min(count),max(count) FROM wordkvs")
    wordkvs.show()
  }

}

soul,,,明灵

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
scala实现目标txt文件中单词的总数、最大数及最小数的计算

scala实现目标txt文件中单词的总数、最大数及最小数的计算注意：需要配置本机的hadoop环境txt文件内容：hello scalehello hadoophello spark输出：package SparkOnHDFS.sampleimport core.Bootimport org.apache.spark.sql.Datasetobject SparkSqlWordCount { def main(args: Array[String]): Unit = {
复制链接

扫一扫

专栏目录