目录
一、点击setting 项目设置 ,点击plugins 进入到插件商店,搜索Scala这个插件点击下载,后期可以方便后面构建项目可以使用scala语言分析。
二、新建一个scala项目,building System 选择用idea运行的,jdk选择1.8的 ,sdk版本为2.11.12,点击构建
四、在scr文件目录下创建一个page包名为com.lzzy,里面是存放scala类
五、把各项指标封装成6个类,我这里统计了6给方向的指标分析数据,数据文件在comper/data.jsonl文件里。
前言:spark是什么?
Spark是一种快速通用的分布式计算系统,用于大规模数据处理。它最初由加州大学伯克利分校的AMPLab开发,作为Hadoop的一个子项目,并于2010年开源。可以用于构建推荐系统,例如基于协同过滤的推荐算法。 通过分析用户行为和喜好数据,可以为用户提供个性化的产品或内容推荐。 Spark 可以用于分析大量的日志数据,例如服务器日志、应用日志等。 通过对日志数据进行处理和分析,可以发现系统性能问题、安全漏洞、用户行为等信息。 Spark 可以用于分析时序数据,例如股票价格、气象数据等。 通过对时序数据进行处理和分析,可以发现数据中的周期性、趋势和异常值等信息。
为什么使用scala做分析指标呢?
Scala是一门多范式的编程语言,一种类似Java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性,应用广泛理解出来比较容易,这里就使用了scala语言来分析统计淘宝数据比较方便后面的代码量,由于Java虚拟机的存在,Scala比Python快十倍,而Python在数据分析和有效数据处理的性能方面则较慢。 Python首先调用涉及大量代码处理的Spark库,并且性能自动降低。 同时,当内核数量有限时,Scala很好。
数据来源:神舟笔记本_淘宝搜索 (taobao.com)