1.数据聚合:
在进行指标统计之前,需要先基于不同维度(如日期、性别、搜索关键词等)对数据进行聚合。这样可以避免全表搜索,提高查询效率。
基于session粒度进行数据聚合,将用户需要的搜索条件拼接在一起。
2.Session数据聚合:
使用mapPartitionsToPair算法获得sessionId与action的tuple RDD。
使用groupByKey算子,聚合同一session的信息(如点击、购买、收藏、搜索、访问时长),并用|分隔拼接在一个字符串中。
使用mapToPair算子构造userId为key,value为拼接的session信息的tuple。这样可以为后续的用户信息聚合做准备。
3.用户信息聚合:
将上一步得到的userId2SessionInfo与用户信息进行join操作。为了避免数据倾斜,使用map join替换reduce join,即将用户信息作为广播变量广播出去。
在调用mapToPair算子时,利用广播变量的值进行用户信息的聚合。
4.实现session访问时长统计:
使用filter算子进行用户筛选条件的过滤。
为了统计session访问时长,使用自定义的accumulator来累加不同节点上相同session时长的信息。注意:在将accumulator统计的session时长写入MySQL之前,必须有一个action操作触发任务。