用户session访问时长的计算

1.数据聚合:

在进行指标统计之前,需要先基于不同维度(如日期、性别、搜索关键词等)对数据进行聚合。这样可以避免全表搜索,提高查询效率。
基于session粒度进行数据聚合,将用户需要的搜索条件拼接在一起。

2.Session数据聚合:

使用mapPartitionsToPair算法获得sessionId与action的tuple RDD。
使用groupByKey算子,聚合同一session的信息(如点击、购买、收藏、搜索、访问时长),并用|分隔拼接在一个字符串中。
使用mapToPair算子构造userId为key,value为拼接的session信息的tuple。这样可以为后续的用户信息聚合做准备。

3.用户信息聚合:

将上一步得到的userId2SessionInfo与用户信息进行join操作。为了避免数据倾斜,使用map join替换reduce join,即将用户信息作为广播变量广播出去。
在调用mapToPair算子时,利用广播变量的值进行用户信息的聚合。

4.实现session访问时长统计:

使用filter算子进行用户筛选条件的过滤。
为了统计session访问时长,使用自定义的accumulator来累加不同节点上相同session时长的信息。注意:在将accumulator统计的session时长写入MySQL之前,必须有一个action操作触发任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值