sparksql 2.x 写WordCount

最新推荐文章于 2024-05-06 08:39:42 发布

念念不忘_

最新推荐文章于 2024-05-06 08:39:42 发布

阅读量870

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/bb23417274/article/details/82947762

版权

spark 专栏收录该内容

53 篇文章 0 订阅

订阅专栏

package com.ws.sparksql
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

object SqlWordCount {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("SqlWordCount").master("local[*]").getOrCreate()

    //Dataset : 只有一列，默认列名value
    //Dataset分布式数据，进一步封装RDD，更加智能的RDD
    val dataRdd: Dataset[String] = spark.read.textFile("hdfs://hadoop-01:9000/project")

    //导入隐式转换
    import spark.implicits._
    //切分
    val splitRdd: Dataset[String] = dataRdd.flatMap(_.split(" "))

    //注册视图
    splitRdd.createTempView("t_project")
    //dataFrame方式 ，也可以使用聚合函数 agg()
    // val result = splitRdd.groupBy($"value" as "keyWord").count().sort($"count" desc)
    //sql方式
    val result: DataFrame = spark.sql("select value as keyWord, count(*) as num " +
      "from t_project group by keyWord order by num desc ")

    result.show()

    spark.stop()
  }
}

结果：

+-------+---+
|keyWord|num|
+-------+---+
|  spark|  7|
| hadoop|  5|
|   hive|  4|
|  hbase|  3|
|  flume|  2|
|  sqoop|  1|
| ssqoop|  1|
+-------+---+

念念不忘_

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
5
评论
sparksql 2.x 写WordCount

package com.ws.sparksqlimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object SqlWordCount { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName(...
复制链接

扫一扫