Spark+Scala对螺蛳粉数据进行部分指标的计算

Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面象对象编程的各种特性,将面向对象和函数式编程结合成一种简洁的高级语言。Scala的静态类型有助于避免复杂应用程序中的错误,它的JVM和JavaScript运行时让你可以轻松地访问庞大的库生态系统来构建高性能系统,Scala在众多领域得到了广泛的应用,特别是在大数据处理、分布式计算和机器学习方面。
摘要由CSDN通过智能技术生成

前言

一、什么是Spark?

Spark是一个开源的大数据处理框架,旨在提供快速、通用且易于使用的分布式数据处理和分析功能。它最初由加州大学伯克利分校的AMPLab实验室开发,并于2010年开源。Spark的出现极大地简化了大数据处理的复杂性,并提供了高性能和灵活性,使得开发人员能够更轻松地处理和分析大规模数据集。它已经成为大数据领域中广泛使用的框架之一。

二、什么是Scala?

Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面象对象编程的各种特性,将面向对象和函数式编程结合成一种简洁的高级语言。Scala的静态类型有助于避免复杂应用程序中的错误,它的JVM和JavaScript运行时让你可以轻松地访问庞大的库生态系统来构建高性能系统,Scala在众多领域得到了广泛的应用,特别是在大数据处理、分布式计算和机器学习方面。

1、项目要求

自行准备某个领域的数据(可以是电商商品数据、电商订单数据、影视数据、游戏数据、工业互联网数据、手机埋点数据、天气数据、股票数据、房地产数据等等,但不能选新能源车辆数据),并搜集/准备至少五个相关的统计指标,然后写Spark程序完成这些指标的计算。

2、指标说明

*最低价格为:某一金融产品在指定时间区间内的最低成交价格,
【举例】人民币汇率最低价、某股票历史最低价、黄金期货当日最低价。

*最高价格为:是指当日所成交的价格中的最高价位。
【举例】 在我国股市中有涨跌停限制,最高只能涨10%,也就是最高价最多只能是开盘价的110%,

*平均价格为:平均指标指数是两个总量指标的平均值对比。
【举例】2018年4月我国 居民消费 价格同比指数101.08%,
表示与2017年同期相比,平均来说我国居民各项 生活消费 价格上升了1.08%

*中位数价格为:中位数是按顺序排列的一组数据中居于中间位置的数。
【举例】10、 20、 20、 20、 30
因为该组数据一共由5个数据组成,故按中位数的计算方法,得到中位数为20,即第3个数。

*统计交易次数最高店铺:可以判断出此电影院的受欢迎成度

*统计同名称的店铺:可以判断这家电影院的知名度。

3、安装scala插件

运行idea,选择file -> settings…

在这里插入图片描述
创建普通的scala项目
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

4、实现流程

1.构造spark的入口函数sparksession

    val spark: SparkSession = SparkSession
      .builder()
      .appName("lsf")
      .master(
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值