每天平台商品销量统计_去重统计每一天卖出的东西的品类-CSDN博客

本文链接：https://blog.csdn.net/chenqiao888666/article/details/134501765

本文介绍了如何利用Scala和Spark进行电商平台商品销量统计。通过新建Scala项目，设置环境，导入依赖，作者创建了6个类分别统计城市商品数量、城市销量、最高价格、店铺销量排名、店铺最高价格和付款人数，展示了Spark在数据分析上的高效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：spark是什么？

为什么使用scala做分析指标呢？

一、点击setting 项目设置，点击plugins 进入到插件商店，搜索Scala这个插件点击下载，后期可以方便后面构建项目可以使用scala语言分析。

二、新建一个scala项目，building System 选择用idea运行的，jdk选择1.8的，sdk版本为2.11.12，点击构建

三、导入要使用到的依赖包，有两个依赖包，一个是saprk_lib的依赖包，这个的作用可以让创建spark这个配置对象idea可以调用，第二个依赖包是scala-2.11.12，这个依赖包可以让你使用scala语言的时候可以识别出来，里面封装了很多的java的包

四、在scr文件目录下创建一个page包名为com.lzzy，里面是存放scala类

五、把各项指标封装成6个类，我这里统计了6给方向的指标分析数据，数据文件在comper/data.jsonl文件里。

六、总结

前言：spark是什么？

Spark是一种快速通用的分布式计算系统，用于大规模数据处理。它最初由加州大学伯克利分校的AMPLab开发，作为Hadoop的一个子项目，并于2010年开源。可以用于构建推荐系统，例如基于协同过滤的推荐算法。通过分析用户行为和喜好数据，可以为用户提供个性化的产品或内容推荐。 Spark 可以用于分析大量的日志数据，例如服务器日志、应用日志等。通过对日志数据进行处理和分析，可以发现系统性能问题、安全漏洞、用户行为等信息。 Spark 可以用于分析时序数据，例如股票价格、气象数据等。通过对时序数据进行处理和分析，可以发现数据中的周期性、趋势和异常值等信息。

为什么使用scala做分析指标呢？

Scala是一门多范式的编程语言，一种类似Java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性，应用广泛理解出来比较容易，这里就使用了scala语言来分析统计淘宝数据比较方便后面的代码量，由于Java虚拟机的存在，Scala比Python快十倍，而Python在数据分析和有效数据处理的性能方面则较慢。 Python首先调用涉及大量代码处理的Spark库，并且性能自动降低。同时，当内核数量有限时，Scala很好。

数据来源：神舟笔记本_淘宝搜索 (taobao.com)