用户session访问时长的计算

最新推荐文章于 2024-10-07 18:00:00 发布

guo158799

最新推荐文章于 2024-10-07 18:00:00 发布

阅读量103

点赞数 1

文章标签： spark

本文链接：https://blog.csdn.net/guo158799/article/details/139583111

版权

1.数据聚合：

在进行指标统计之前，需要先基于不同维度（如日期、性别、搜索关键词等）对数据进行聚合。这样可以避免全表搜索，提高查询效率。
基于session粒度进行数据聚合，将用户需要的搜索条件拼接在一起。

2.Session数据聚合：

使用mapPartitionsToPair算法获得sessionId与action的tuple RDD。
使用groupByKey算子，聚合同一session的信息（如点击、购买、收藏、搜索、访问时长），并用|分隔拼接在一个字符串中。
使用mapToPair算子构造userId为key，value为拼接的session信息的tuple。这样可以为后续的用户信息聚合做准备。

3.用户信息聚合：

将上一步得到的userId2SessionInfo与用户信息进行join操作。为了避免数据倾斜，使用map join替换reduce join，即将用户信息作为广播变量广播出去。
在调用mapToPair算子时，利用广播变量的值进行用户信息的聚合。

4.实现session访问时长统计：

使用filter算子进行用户筛选条件的过滤。
为了统计session访问时长，使用自定义的accumulator来累加不同节点上相同session时长的信息。注意：在将accumulator统计的session时长写入MySQL之前，必须有一个action操作触发任务。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

guo158799

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

java 计算高数_统计当前在线用户数、平均访问时长、在线用户最高数等实现

weixin_42400669的博客

02-28

1309

一、需求：最近做一个统计项目，项目要求统计不同店铺的当前在线用户数、平均访问时长、今日在线用户最高数等需求二、准备工作：###在开始实现具体功能之前，首先得弄清楚这些概念以及计算公式(大家有哪里不认同的，欢迎指正，微笑)当前在线用户数：这个很好理解，即当前浏览该店铺的所有用户数，也就是大家经常讨论的uv平均访问时长：所有用户访问时长之和/总的用户数今日在线用户最高数以及相应的时间，精确到分钟：这个...

B/S架构如何统计用户在线时长、在线人数？

weixin_42668169的博客

05-24

4885

如何统计用户在线时长、在线人数

参与评论您还未登录，请先登录后发表或查看评论

Session的生命周期

根号三

10-21

457

Session存储在服务器端，一般在服务器的内存中（为了高速存取），Sessinon在用户访问第一次访问服务器时创建，需要注意的事只有访问JSP、Servlet等程序时才会创建Session，只访问HTML、IMAGE等静态资源并不会创建Session，也可调用 request.getSession(true)强制生成Session。　　Session什么时候失效？　

php中的session生命周期

weixin_43187635的博客

10-23

336

会话文件的存储时间： PHP会话数据通常存储在服务器上的文件中。会话文件的存储时间由php.ini配置文件中的session.gc_maxlifetime参数决定，默认为1440秒（24分钟）。这个参数表示会话文件在多长时间内没有被访问后将被清除。你可以在代码中使用session.gc_maxlifetime来获取或修改这个值。在PHP中，会话（session）生命周期由两个主要因素控制：会话文件的存储时间和会话cookie的过期时间。

Spring Security 如何维持单点状态

weixin_42555971的博客

11-05

685

session

Spark电商用户行为分析（2）——用户访问 session 分析

一角残叶的博客

02-21

1539

1 用户访问 session 分析模块介绍可以根据使用者指定的某些条件，筛选出指定的一些用户（有特定年龄、职业、城市）；对这些用户在指定日期范围内发起的session，进行聚合统计，比如，统计出访问时长在0~3s的session占总session数量的比例；按时间比例，比如一天有24个小时，其中12:00~13:00的session数量占当天总session数量的50%，当天总sessio...

php统计在线时长,实现统计在线用户的几种方式

weixin_29710393的博客

03-29

1098

先说说一些平常的做法：一，每次用户操作更新其在线时间这个方法很直接，在用户表里加一个字段update_time，每次用户进行操作，都更新这个字段为当前时间，一般是在一个被所有Action继承的基类里写这个操作。然后定义一个过期时间，比如10分钟，表示10分钟没进行任何操作的用户默认为不在线。这样，统计当前在线用户的sql语句大概是这样selectcount(*)fromthink_userwher...

hive计算网页停留时长

成哥万岁

08-21

4352

hive表结构如下： create table pv_user_info( session_id string, user_id string, url string, starttime bigint ); 主要就是这几个字段有用，省略其他。实现方式：userid和sessionid分组后并按时间降序排序，降序排序后，第一行就是该用户最后一次浏览的网页。最后一行是第一次

PHP基于cookie与session统计网站访问量并输出显示的方法

12-18

而Session则是服务器端存储的一种用户状态管理方式，它会在用户每次请求时分配一个唯一的Session ID，并通过Cookie或URL重写等方式将其传递给用户，从而识别不同的用户会话。在PHP中，我们可以通过`setcookie()`...

[2.0.1]代码解读统计session访问时长占比

Memory of Mr.Snail

07-02

2171

场景[2.0.0]已经对用户session分析模块的统计session访问时长占比功能点的需求分析进行了完美的解说。本文旨在对统计session访问时长占比的代码进行解读，并抽取核心spark知识点单独说明分析1、由action粒度的数据 map 得到 session粒度的数据;进一步group，得到聚合后的session粒度数据 2、join用户表数据得到,包含用户信息的session粒度数据

java session添加、获取、设置时长与清除

Mr.Chen的博客

11-03

5588

目录一：添加：二：设置过期时长：三：获取session中的值四：清除一：添加： HttpSession session = request.getSession(); session.setAttribute("customerInfo","1"); 二：设置过期时长： 1.1：在主页面或者公共页面中加入： session.setMaxInactiveInterva...

Session用户行为分析

PEXUE的专栏

05-05

351

什么是Session? 如果把产品看成大卖场，那么互联网用户的行为就如同在大卖场扫货的顾客。对卖场来说，顾客从进入商场到离开商场，中间一系列行为购成了一次来访。同样，对产品来说，用户进入产品到离开产品的一系列行为，就是一次访问。称之为 Session或Visit。从技术上来说，Session是服务器为了保存用户状态而创建的一个特殊的对象。用户用浏览器第一次访问产品运行的服务器时，服务器创建一个session对象(该对象有一个唯一的id,一般称之为sessionId),服

【Iceberg分析】Spark集成Iceberg采集输出

coding and writing

10-07

616

Spark集成Iceberg采集输出验证

多台三相逆变器并联（本模型为三台并联，市面上多为两台并联）matlab simulink仿真功能：实现并联系统中各逆变器输出