131.Spark大型电商项目-用户活跃度分析模块-需求分析

目录

 

使用的技术

用户活跃度分析模块


使用的技术


最基本的数据分析平台,主要是走离线批处理模式。每天凌晨对昨天的数据进行批量处理和分析,统计出者种指标和报表,写入MySQL等关系型数据库中。第二天,公司的人就可以看到昨天以及昨天以前的数据分析结果。

但是有些场景下,是没有办法提前对数据进行预处理的,比随机用户抽取、随机页面转化率分析,随机时间范围内随机商品的分析,等等就如同我们之前讲解的那些模块一样。此时,就需要提供一个java web系统,供用户在需要的时候,选择对应的查询和分析条件,然后由我们的系统立即运行一个大数据处理分析作业,在最短的时间内结用户提供她们想要的数据。这就是所谓的交互式用户行力分析。

为什么这套交互式用户行为分析系统,要选择采用Spark技术呢?因Spark在好好调优之后,性能可以达到同等hive mapreduce作业的3倍~10倍,大幅度提升性能之后,减少了用户的等特时间,能够提供更好的用户体验。因此,可以说,交互式的数据分析,是spark一个非常天然的适用场景。

此外,实际的项目做了很多的合并以及改进的,用尽量少的经典模块,涵盖Spark所有的技术点,让大家可以通过这个项目完或对Spark技木点的实战演练。

还有一件很重更的事情,为什么要用Spark RDD API味开发这些复杂的业务逻辑,为什么不直接用SQL?当然,用SQL是可以的,但是要区分一下,SQL主要适合刚才说的大量离线批处理的ETL作业和统计分析逻辑。统计分析探表以及需求灵活,多变,经常会增加,经常逻辑会变,用SQL是很合适的。但是我们这个是套系统,和java web配合的系统,模块和需求都是固定的。用SQL的缺点在于,spark底层自动生成执行计划和代码,我们几乎无法进行深度的调优,遇到问题也不好解决,但是对于我们这种固定需求,少量模块,要求速度和稳定性的系统来说,使用spark RDD API是最好的选择,因为RDD是最原始的API,我们几乎可以控制一切,包括参数整优及数据倾斜的重构和优化等,遇到报错,都是最底层的源码,我们可以很容易进行定和修复问题。这就是为什么本套系统大量采用Spatk RDD API开发复杂业务模块的原因。

用户活跃度分析模块

1.指定时间内话同次数显多的10个户

2.指定时间即内购买商品全额最多的10个用户

3.量近周期力相对之第一个周啊访问次数增长最识的10个用尸

4.最近周期户相对之第一个用期购买商品全部增长最快的10个用户

5.指定周期内正明的新用户在头天访问大数最多的10个用户

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
项目Spark离线处理本项目来源于企业级网站的大数据统计分析平台,该平台以 Spark 框架为核心,对网站的日志进行离线和实时分析。 该大数据分析平台对网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行分析,根据平台统计出来的数据,辅助公司中的 PM(产品经理)、数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务。最终达到用大数据技术来帮助提升公司的业绩、营业额以及市场占有率的目标。 本项目使用了 Spark 技术生态栈中最常用的三个技术框架,Spark Core、Spark SQL 和 Spark Streaming,进行离线计算和实时计算业务模块的开发。实现了包括用户访问 session 分析、页面单跳转化率统计、热门品离线统计、广告流量实时统计 4 个业务模块。通过合理的将实际业务模块进行技术整合与改造,该项目几乎完全涵盖了 Spark Core、Spark SQL 和 Spark Streaming 这三个技术框架中大部分的功能点、知识点,学员对于 Spark 技术框架的理解将会在本项目中得到很大的提高。 项目Spark实时处理项目简介对于实时性要求高的应用,如用户即时详单查询,业务量监控等,需要应用实时处理架构项目场景对于实时要求高的应用、有对数据进行实时展示和查询需求时项目技术分别使用canal和kafka搭建各自针对业务数据库和用户行为数据的实时数据采集系统,使用SparkStreaming搭建高吞吐的数据实时处理模块,选用ES作为最终的实时数据处理结果的存储位置,并从中获取数据进行展示,进一步降低响应时间。 

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值