目录
前言
Spark
Spark是一个开源的大数据处理框架,旨在提供快速、通用且易于使用的分布式数据处理和分析功能。它最初由加州大学伯克利分校的AMPLab实验室开发,并于2010年开源。Spark的出现极大地简化了大数据处理的复杂性,并提供了高性能和灵活性,使得开发人员能够更轻松地处理和分析大规模数据集。它已经成为大数据领域中广泛使用的框架之一。
Scala
Scala是一种运行在Java虚拟机上的多范式编程语言,它结合了面向对象编程和函数式编程的特性。Scala的设计目标是提供一种简洁、高效和类型安全的编程语言,同时保持与Java的互操作性。它提供了许多现代编程语言的特性,如强大的静态类型系统、模式匹配、高阶函数、闭包、类型推断和并发编程支持。
数据来源
这个网站的数据比较多,适用于各种测试
数据科学科研和教学一体化平台 (idatascience.cn)
过程
准备工作
下载插件
我是用idea写的,需要先下载Scala插件
新建普通Scala项目
将jsonl文件上传到Hadoop
Code(五个指标需求)
1.统计上座率高于50%的电影院
Attendance 这个类是统计上座率高于50%的电影院,可以知道哪个电影院最受欢迎,以此来判断它的服务质量,这里用了分组,统计函数、降序、去重操作,统计出来排名各个城市情况
从hdfs上读取文件
import org.apache.spark.sql.Dataset
import org.apache.spark.sql._
object Attendance {
def main(args: Array[String]): Unit = {
val ss: SparkSession = org.apache.spark.sql.SparkSession.builder.appName("Attendance ").master("local").getOrCreate
val df: Dataset[Row] = ss.read.json("hdfs://192.168.187.169:9000/01/DataCinema.jso