基于Spark、Scala数据统计

db_wbx_2033

已于 2023-11-11 03:08:17 修改

阅读量239

点赞数

文章标签： spark 大数据分布式 scala

于 2023-11-10 15:56:38 首次发布

本文链接：https://blog.csdn.net/endir_Xiao_ai/article/details/134298584

版权

前言

Spark

Spark是一个开源的大数据处理框架，旨在提供快速、通用且易于使用的分布式数据处理和分析功能。它最初由加州大学伯克利分校的AMPLab实验室开发，并于2010年开源。Spark的出现极大地简化了大数据处理的复杂性，并提供了高性能和灵活性，使得开发人员能够更轻松地处理和分析大规模数据集。它已经成为大数据领域中广泛使用的框架之一。

Scala

Scala是一种运行在Java虚拟机上的多范式编程语言，它结合了面向对象编程和函数式编程的特性。Scala的设计目标是提供一种简洁、高效和类型安全的编程语言，同时保持与Java的互操作性。它提供了许多现代编程语言的特性，如强大的静态类型系统、模式匹配、高阶函数、闭包、类型推断和并发编程支持。

数据来源

这个网站的数据比较多，适用于各种测试

数据科学科研和教学一体化平台 (idatascience.cn)

过程

准备工作

下载插件

我是用idea写的，需要先下载Scala插件

新建普通Scala项目

将jsonl文件上传到Hadoop

Code（五个指标需求）

1.统计上座率高于50%的电影院

Attendance 这个类是统计上座率高于50%的电影院，可以知道哪个电影院最受欢迎，以此来判断它的服务质量，这里用了分组，统计函数、降序、去重操作，统计出来排名各个城市情况

从hdfs上读取文件

import org.apache.spark.sql.Dataset
import org.apache.spark.sql._


object Attendance {
  def main(args: Array[String]): Unit = {
    val ss: SparkSession = org.apache.spark.sql.SparkSession.builder.appName("Attendance ").master("local").getOrCreate
    val df: Dataset[Row] = ss.read.json("hdfs://192.168.187.169:9000/01/DataCinema.jso

最低0.47元/天解锁文章

db_wbx_2033

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
基于Spark、Scala数据统计

目录前言SparkScala数据来源过程准备工作下载插件新建普通Scala项目将jsonl文件上传到HadoopCode（五个指标需求）1.统计上座率高于50%的电影院运行结果如下：2.统计同名称的电影院有多少家运行结果如下：3.计算电影院当日的场均人次运行结果如下：4.统计当日观众人数最高的前15个电影院运行结果如下：5.查询电影院某一天的票房运行结果如下：总结： Spark是一个开源的大数据处理框架，旨在提供快速、通用且易于使用的分布式数据处理和分析功能。它最初由加
复制链接

扫一扫