基于Spark、Scala数据统计

目录

前言

Spark

Scala

数据来源

过程

准备工作

下载插件

新建普通Scala项目

将jsonl文件上传到Hadoop

Code(五个指标需求)

1.统计上座率高于50%的电影院

运行结果如下:

2.统计同名称的电影院有多少家

运行结果如下:

3.计算电影院当日的场均人次

运行结果如下:

4.统计当日观众人数最高的前15个电影院

运行结果如下:

5.查询电影院某一天的票房

运行结果如下:

总结:

            


前言

Spark

        Spark是一个开源的大数据处理框架,旨在提供快速、通用且易于使用的分布式数据处理和分析功能。它最初由加州大学伯克利分校的AMPLab实验室开发,并于2010年开源。Spark的出现极大地简化了大数据处理的复杂性,并提供了高性能和灵活性,使得开发人员能够更轻松地处理和分析大规模数据集。它已经成为大数据领域中广泛使用的框架之一。

Scala

Scala是一种运行在Java虚拟机上的多范式编程语言,它结合了面向对象编程和函数式编程的特性。Scala的设计目标是提供一种简洁、高效和类型安全的编程语言,同时保持与Java的互操作性。它提供了许多现代编程语言的特性,如强大的静态类型系统、模式匹配、高阶函数、闭包、类型推断和并发编程支持。

数据来源

这个网站的数据比较多,适用于各种测试

数据科学科研和教学一体化平台 (idatascience.cn)

过程

准备工作

下载插件

我是用idea写的,需要先下载Scala插件

新建普通Scala项目

将jsonl文件上传到Hadoop

Code(五个指标需求)

1.统计上座率高于50%的电影院

        Attendance 这个类是统计上座率高于50%的电影院,可以知道哪个电影院最受欢迎,以此来判断它的服务质量,这里用了分组,统计函数、降序、去重操作,统计出来排名各个城市情况

        从hdfs上读取文件

import org.apache.spark.sql.Dataset
import org.apache.spark.sql._


object Attendance {
  def main(args: Array[String]): Unit = {
    val ss: SparkSession = org.apache.spark.sql.SparkSession.builder.appName("Attendance ").master("local").getOrCreate
    val df: Dataset[Row] = ss.read.json("hdfs://192.168.187.169:9000/01/DataCinema.jso
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值