[Spark应用]-- 使用spark的dataframe实现单词统计

最新推荐文章于 2024-07-13 00:08:49 发布

往事随风ing

最新推荐文章于 2024-07-13 00:08:49 发布

阅读量3.4k

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/high2011/article/details/51517735

版权

Spark 专栏收录该内容

133 篇文章 10 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用Spark的DataFrame API进行单词统计。通过处理文本文件内容，利用DataFrame的算子进行数据操作，最终得到每个单词出现的次数。

摘要由CSDN通过智能技术生成

一、文件内容

world
hello
www
cassie
wwwhello
www
lisi
world
cassie
hello

二、操作类

package com.day.scala.sql


import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.DataTypes
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.StructField
/**
 * scala sql版本的单词统计
 */
object WordCount {
  def main(args:Array[String]):Unit={
    //获取context
    val sc=new SparkContext(new SparkConf().setAppName("word