文章目录
前言
一、什么是Spark?
Spark是一个开源的大数据处理框架,旨在提供快速、通用且易于使用的分布式数据处理和分析功能。它最初由加州大学伯克利分校的AMPLab实验室开发,并于2010年开源。Spark的出现极大地简化了大数据处理的复杂性,并提供了高性能和灵活性,使得开发人员能够更轻松地处理和分析大规模数据集。它已经成为大数据领域中广泛使用的框架之一。
二、什么是Scala?
Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面象对象编程的各种特性,将面向对象和函数式编程结合成一种简洁的高级语言。Scala的静态类型有助于避免复杂应用程序中的错误,它的JVM和JavaScript运行时让你可以轻松地访问庞大的库生态系统来构建高性能系统,Scala在众多领域得到了广泛的应用,特别是在大数据处理、分布式计算和机器学习方面。
1、项目要求
自行准备某个领域的数据(可以是电商商品数据、电商订单数据、影视数据、游戏数据、工业互联网数据、手机埋点数据、天气数据、股票数据、房地产数据等等,但不能选新能源车辆数据),并搜集/准备至少五个相关的统计指标,然后写Spark程序完成这些指标的计算。
2、指标说明
*最低价格为:某一金融产品在指定时间区间内的最低成交价格,
【举例】人民币汇率最低价、某股票历史最低价、黄金期货当日最低价。
*最高价格为:是指当日所成交的价格中的最高价位。
【举例】 在我国股市中有涨跌停限制,最高只能涨10%,也就是最高价最多只能是开盘价的110%,
*平均价格为:平均指标指数是两个总量指标的平均值对比。
【举例】2018年4月我国 居民消费 价格同比指数101.08%,
表示与2017年同期相比,平均来说我国居民各项 生活消费 价格上升了1.08%
*中位数价格为:中位数是按顺序排列的一组数据中居于中间位置的数。
【举例】10、 20、 20、 20、 30
因为该组数据一共由5个数据组成,故按中位数的计算方法,得到中位数为20,即第3个数。
*统计交易次数最高店铺:可以判断出此电影院的受欢迎成度
*统计同名称的店铺:可以判断这家电影院的知名度。
3、安装scala插件
运行idea,选择file -> settings…
创建普通的scala项目
4、实现流程
1.构造spark的入口函数sparksession
val spark: SparkSession = SparkSession
.builder()
.appName("lsf")
.master(