每天平台商品销量统计

目录

前言:spark是什么?

    为什么使用scala做分析指标呢?

一、点击setting 项目设置 ,点击plugins 进入到插件商店,搜索Scala这个插件点击下载,后期可以方便后面构建项目可以使用scala语言分析。

二、新建一个scala项目,building System 选择用idea运行的,jdk选择1.8的 ,sdk版本为2.11.12,点击构建

三、导入要使用到的依赖包,有两个依赖包,一个是saprk_lib的 依赖包,这个的作用可以让创建spark这个配置对象idea可以调用,第二个依赖包是scala-2.11.12,这个依赖包可以让你使用scala语言的时候可以识别出来,里面封装了很多的java的包

四、在scr文件目录下创建一个page包名为com.lzzy,里面是存放scala类

五、把各项指标封装成6个类,我这里统计了6给方向的指标分析数据,数据文件在comper/data.jsonl文件里。

六、总结


前言:spark是什么?

Spark是一种快速通用的分布式计算系统,用于大规模数据处理。它最初由加州大学伯克利分校的AMPLab开发,作为Hadoop的一个子项目,并于2010年开源。可以用于构建推荐系统,例如基于协同过滤的推荐算法。 通过分析用户行为和喜好数据,可以为用户提供个性化的产品或内容推荐。 Spark 可以用于分析大量的日志数据,例如服务器日志、应用日志等。 通过对日志数据进行处理和分析,可以发现系统性能问题、安全漏洞、用户行为等信息。 Spark 可以用于分析时序数据,例如股票价格、气象数据等。 通过对时序数据进行处理和分析,可以发现数据中的周期性、趋势和异常值等信息。

    为什么使用scala做分析指标呢?


   Scala是一门多范式的编程语言,一种类似Java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性,应用广泛理解出来比较容易,这里就使用了scala语言来分析统计淘宝数据比较方便后面的代码量,由于Java虚拟机的存在,Scala比Python快十倍,而Python在数据分析和有效数据处理的性能方面则较慢。 Python首先调用涉及大量代码处理的Spark库,并且性能自动降低。 同时,当内核数量有限时,Scala很好。

     数据来源:神舟笔记本_淘宝搜索 (taobao.com)

一、点击setting 项目设置 ,点击plugins 进入到插件商店,搜索Scala这个插件点击下载,后期可以方便后面构建项目可以使用scala语言分析。


二、新建一个scala项目,building System 选择用idea运行的,jdk选择1.8的 ,sdk版本为2.11.12,点击构建


三、导入要使用到的依赖包,有两个依赖包,一个是saprk_lib的 依赖包,这个的作用可以让创建spark这个配置对象idea可以调用,第二个依赖包是scala-2.11.12,这个依赖包可以让你使用scala语言的时候可以识别出来,里面封装了很多的java的包


四、在scr文件目录下创建一个page包名为com.lzzy,里面是存放scala类

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值