LoveCount统计“爱”——Scala-Spark实战应用案例

LoveCount统计“爱”——Scala-Spark实战应用案例

前言:

首先,在这里祝大家七夕快乐!!!与良人、佳人共度七夕浪漫时光!!!
单身Dogs也要快乐,用你们的五指菇凉把代码敲起来,博文写起来!

(你敲代码的样子像极了爱情!!!)
话不多说,开始我们的爱情故事!
七月七日,晴。这是我与Scala、Spark相识的第11天,虽然只有短短的11天,但是我们彼此都真切且深刻地了解了对方——她知道我的长短,就像我知道她的深浅!今天是我们的第一个七夕,所以我要以特殊的方式——一篇博文记录下我们的爱情!当然,以后还会有N多个七夕一起度过,我知道,我们将会相伴一生!
在这里插入图片描述

需求:

1、统计txt文件中love单词出现的次数;

2、txt文件中哪个单词出现的次数最多?

代码实现:

package cases

import org.apache.spark.{SparkConf, SparkContext}

object LoveCount {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("LoveCount").setMaster("local")
    val sc = new SparkContext(conf)
    val wordRDD = sc.textFile("dir/love.txt").flatMap(line => {
      val words: Array[String] = line.split(" ")
      words
    })
    val l1: Long = wordRDD.filter(word => word.equals("Love")).count()
    println(l1)
    val l2: Array[(String, Int)] = wordRDD.map(word => (word, 1)).reduceByKey(_ + _).sortBy(item => item._2, false).take(1)
    println(l2.toBuffer)
      sc.stop()
  }
}

结果输出:

在这里插入图片描述

love出现了520次;文件中出现最多的单词是love
像极了爱情!!!

案例代码解析:

val conf = new SparkConf().setAppName("LoveCount").setMaster("local")

创建SparkConf对象(模块代码),相当于MR中配置必须传入参数;

setAppName —> 设置任务的名称,不设置默认是一个UUID所产生的名字;

setMaster —> 设置运行模式

不提交到集群中运行,即打jar包提交集群的操作,需要设置一个方法setMaster。这个方法主要是设置本地执行即本地模式,提供参数赋值:

  • local” —> 本地运行提供一个线进行任务处理

  • local[数值]” —> 开启相应数值的线程模拟spark集群运行任务

  • local[*]” —> 开启相应数值的线程模拟spark集群运行任务

    注意:local[数值]”与“local[*]”两者的区别在于:前者[数值]根据数值决定个数,而[*]是当前空闲多少线程就用多少线程执行

//创建一个sparkContext对象,通过SparkContext对象进行数据处理操作,程序的入口点
val sc = new SparkContext(conf)
val wordRDD: RDD[String] = sc.textFile("dir/love.txt").flatMap(line => {
      val words: Array[String] = line.split(" ")
      words
    })
//以上为Scala简写,拆分如下:

textFile读取文件,参数是String类型,传入对应路径即可:textFile("文件路径")

 val lines: RDD[String] = sc.textFile(args(0))

切分读取到的数据

 val words: RDD[String] = lines.flatMap(_.split(" "))

flatMap遍历扁平化处理(这个flatMap和Scala中flatMap是一样的),flatMap方法可以对集合中数据进行扁平化处理,将集合内容的数据取出来返回一个全新的RDD

//Love出现的次数
val l1: Long = wordRDD.filter(word => word.equals("Love")).count()

filterl1中每一个元素进行过滤操作(对每一个元素进行Boolean类型表达式的验证),如果结果为true就保留数据,如果结果为false则丢弃数据;

count():统计单词出现的次数

//txt文件中哪个单词出现的次数最多?
val l2: Array[(String, Int)] = wordRDD.map(word => (word, 1)).reduceByKey(_ + _).sortBy(item => item._2, false).take(1)

mapwordRDD中每一个元素进行遍历并加以计算,返回一个新的RDD;

reduceByKey:相同key为一组进行求和计算,计算value

sortBy:对结果进行排序,和Scala中sortBy不一样,Spark中sortBy算子多了一个参数可以设置升降序,默认升序,false就是降序

take(1):返回一个由数据集的前1个元素组成的数组

sc.stop()//停止SparkContext,结束任务回收资源

案例中所用的RDD算子

flatMap(func)

类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素)

filter(func)

返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入元素组成

count()

返回RDD的元素个数

map(func)

返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成

reduceByKey(func,[numTasks])

在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,与groupByKey类似,reduce任务的个数可以通过第二个可选的参数来设置

sortBy(func,[ascending], [numTasks])

在一个(K,V)的RDD上调用,K必须实现Ordered接口,返回一个按照key进行排序的(K,V)的RDD。在排序前可以将数据通过f: (T) => K 函数进行处理之后按照f: (T) => K 函数处理之后结果进行排序,默认是升序,false降序

take(n)

返回一个由数据集的前n个元素组成的数组

总结

人生若只如初见!知性、曼妙,似火、似冰、似久别故人、似擦肩过客!像极了爱情!!!
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 以下是一个简单的Scala-Spark SQL查询和输出的示例: ```scala import org.apache.spark.sql.SparkSession object SparkSQLDemo { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .appName("SparkSQLDemo") .master("local[*]") .getOrCreate() // 读取CSV文件并创建DataFrame val df = spark.read .option("header", "true") .option("inferSchema", "true") .csv("path/to/csv/file") // 创建临时表 df.createOrReplaceTempView("people") // 执行SQL查询 val result = spark.sql("SELECT * FROM people WHERE age > 30") // 输出结果 result.show() spark.stop() } } ``` 这个示例演示了如何使用SparkSession对象读取CSV文件并创建DataFrame,然后将DataFrame注册为一个临时表,最后执行SQL查询并输出结果。在这个示例中,我们查询了所有年龄大于30岁的人的信息。 ### 回答2: Spark SQL是Spark中一个用于分布式数据处理的模块,它提供了一个用于结构化数据处理的SQL查询引擎。Scala是一种在JVM上运行的编程语言,它被广泛用于Spark中的开发。本文将介绍Scala-Spark SQL的查询和输出demo。 首先,我们需要导入Spark SQL的包: ```scala import org.apache.spark.sql.SparkSession ``` 然后,我们需要创建一个SparkSession对象: ```scala val spark = SparkSession.builder.appName("ScalaSparkSQLDemo").getOrCreate() ``` 接下来,我们可以通过以下代码从csv文件中读取数据并创建一个DataFrame对象: ```scala val df = spark.read.option("header", "true").option("delimiter", ",").csv("path/to/file.csv") ``` 上述代码中,“header”选项表示csv文件的第一行被视为列名,而“delimiter”选项表示csv文件中使用的字段分隔符。在这里,我们将csv文件的路径指定为“file.csv”。 接下来,我们可以执行SQL查询: ```scala df.createOrReplaceTempView("people") val result = spark.sql("SELECT * FROM people WHERE age > 21") ``` 上述代码中,“createOrReplaceTempView”方法将DataFrame注册为可临时使用的表,表名为“people”。然后我们执行SQL查询语句:“SELECT * FROM people WHERE age > 21”,筛选出age大于21的所有行。 最后,我们可以将结果输出到控制台: ```scala result.show() ``` 上述代码中,“show”方法将结果以表格形式输出到控制台。 整个Scala-Spark SQL查询输出demo的代码如下: ```scala import org.apache.spark.sql.SparkSession object ScalaSparkSQLDemo { def main(args: Array[String]): Unit = { val spark = SparkSession.builder.appName("ScalaSparkSQLDemo").getOrCreate() val df = spark.read.option("header", "true").option("delimiter", ",").csv("path/to/file.csv") df.createOrReplaceTempView("people") val result = spark.sql("SELECT * FROM people WHERE age > 21") result.show() spark.stop() } } ``` 注意,我们还需在代码结尾使用“spark.stop()”方法,以关闭SparkSession对象,释放资源。 以上是Scala-Spark SQL查询输出demo的详细说明,开发者们可以根据需求进行修改和应用。 ### 回答3: Scala-Spark大数据处理和分析领域的重要框架之一,其提供了强大的数据分析和处理工具,其中包括Spark SQL。Spark SQL是将结构化数据和非结构化数据整合到一起进行分析和处理的一个模块,基于Spark Core数据处理引擎,并支持使用Scala、Java和Python等语言进行编程。 下面我们来看一个Scala-Spark SQL的查询和输出Demo: 首先需要导入相应的包,因为使用的是Spark 2.4版本,所以需要导入spark-sql的jar包: ```scala import org.apache.spark.sql.SparkSession ``` 然后创建一个SparkSession对象: ```scala val spark = SparkSession.builder().appName("Spark SQL Demo").master("local[*]").getOrCreate() ``` 接下来读入数据,构建DataFrame,比如我们在本地有一个people.csv文件,有两列数据:name和age,我们可以使用如下代码读取该文件构建DataFrame: ```scala val file = "people.csv" var peopleDF = spark.read.format("csv").option("header","true").load(file) ``` 然后我们对DataFrame数据进行一些操作,例如筛选出年龄大于30的人: ```scala var resultDF = peopleDF.filter("age > 30") ``` 接下来我们可以将结果输出到控制台,使用show()方法: ```scala resultDF.show() ``` 最后记得关闭SparkSession对象: ```scala spark.stop() ``` 以上就是Scala-Spark SQL查询与输出的基本Demo,这些代码可以帮助你了解在Scala中如何使用Spark SQL来进行数据查询和输出。当然,Spark SQL还有很多强大的功能和语法,需要大家自己去探索和学习。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ChlinRei

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值