第三届易观算法大赛 -- OLAP Session分析(5万奖金)

                                                                                    OLAP Session分析

  • 赛题背景

  Session,即会话,是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如,一次会话可以包含多个页面浏览、交互事件等。Session 是具备时间属性的,根据不同的切割规则,可以生成不同长度的 Session。
对于 Session 的理解以及相关指标的计算,其中最重要的两块就是:
(1)Session 应该包含哪些行为事件
(2)Session 如何切割:需设定切割时长,即相邻事件间的时间间隔超出此时长则进行切割,基于动态切割规则计算一系列         session相关指标。需要支持动态切割规则、超时、跨天、跨平台、指定开始事件、指定结束事件等。

  • 参赛对象

  OLAP Session分析大赛将分商业组及开源组,将分别为互联网/科技公司相关技术团队,以及OLA[技术从业人员和技术爱好者提供竞技交流的平台。

  • 时间安排

   8月20日 - 9月15日,初赛报名,参赛选手在Demo环境下程序调试
   9月15日 - 9月25日,参赛者在服务器环境下进行环境测试
   9月25日 - 10月15日,正式环境比赛
 10月15日 - 10月20日,参赛者提交算法文档,答辩
 10月25日,易观A10数据智能生态大会颁奖及排名公布

  • 赛题介绍

   通常我们把用户一系列连续的行为,看作一次访问,也称之为session。基于会话的分析,即为session查询分析。
   Session查询分析中最重要的两块分别是:
   1、 session如何分割。
   例如,用户访问您的网站,打开了一个网页,有事离开了电脑。几个小时候回来后继续访问,用户的session访问次数应该算作几 次? 又比如,用户在pc端添加了购物车,在手机端完成了支付,又应该算作几次。


  2、 session指标的定义,session分析常见的分析指标有,session访问次数,访问深度、访问时长、跳出率等等

  Session分割规则介绍:Session的划分规则分为2类

1、 默认session,即SDK采集数据源时,已经根据一些规则,将用户行为划分为多个session,通过”$session_id”来区分
2、 动态切割,用户可以根据前后2条连续行为的一些属性判断来确认是否切割session。本次大赛需要支持以下动态切割规则,其中超时和跨天为默认条件,其他为可选条件:
    ü 超时:即前后2条行为发生时间间隔超过某个阈值。如,30分钟
    ü 跨天:即前后2条行为发生的时间不在同一天中
    ü 指定开始事件:即当用户发生指定行为时,开始一个新的会话。如 ,登陆
    ü 指定结束事件:即当用户发生指定行为时,结束会话。如,结束事件
    ü 跨平台:即前后2次行为在不同平台发生的。如,上一条行为JS,下一条iOS

 Session常见指标定义

ü 访问用户数(UV)=访问用户的去重数
ü 访问次数=指用户访问应用的总次数,即会话(Session)数
ü 浏览量(PV)=指用户浏览Web/H5页面的总次数,同一个页面访问多次会被重复计
ü 人均访问次数=访问次数/访问用户数(UV)
ü 人均页面浏览量=浏览量(PV)/访问用户数(UV)
ü 人均访问时长=Session时长之和/访问用户数(UV)
ü 单次访问页面浏览量=平均每次访问浏览页面的次数,单次访问页面浏览量=浏览量(PV)/访问次数
ü 单次访问时长=平均每次访问的时长,单次访问时长=总访问时长/会话数
ü 单次访问事件数=平均每次访问的事件数量(包括浏览页面和点击事件),单次访问事件数=总访问事件数/会话数
ü 跳出率=访问了一个页面的Session数/总的Session数。用户进入着陆页就离开用户来到网站后,除了浏览LandingPage之外,没有发生其他任何操作就离开了网站,被视为跳出。用来衡量Landingpage的质量。

 分析中其他概念

ü Session属性,一般取会话的首事件的某个属性,作为整个会话的属性
ü 着陆页,落地页、引导页,即会话首页面的url。
ü 时长:我们以会话内下一个事件发生时间作为上个事件的结束时间。会话的退出事件是时长为0。单位为毫秒

 

  • 赛题任务

      参赛者根据我们提供的用户行为数据,准确计算出各种场景的下的会话相关指标值。
      计算场景举例:
      1、 使用默认session,计算出20190501-20190510,每天的会话次数、人均访问时长、退出率
      2、 使用超时时间30分钟+跨天的session切割规则,计算出20190501-20190510,每天的会话次数、跳出率。且以 着陆页进行分组。
      3、 使用超时时间30分钟+跨天+指定开始事件,的session切割规则计算出20190501-20190510,每天包含某个页面行为的会话 总数,人均访问深度。

  • 数据介绍

  数据为文本文件格式,具体包含字段有: 分隔符为 tab
(1)用户ID,Long类型
(2)时间戳, 毫秒级别,Long类型
(3)事件code,字符串类型,本次默认全部为"$pageview",页面浏览事件
(4)url,字符串类型,页面的url
(5)平台, 字符串类型
(6)来源, 字符串类型,流量来源
(7) 城市,字符串类型
(8)品牌,字符串类型
(9)购买数量,Int类型
(10) 价格,Double类型
(11) 日期,字符串类型
测试数据总条数7千万左右,日期范围:2019/01/01到2019/01/07。
比赛数据总条数5亿左右,日期范围:2019/05/01到2019/05/15

  • 提交格式:

  所有题目,默认按日期分组计算,其他维度已经指标根据题目要求计算如:
  维度,周期,uv,pv,人均时长等
  url1,20190501,300,800,4545
  url1,20190502,200,500,4444-

  • 数据下载链接

   云盘地址:https://pan.baidu.com/s/1HW_8vauDoq6PZnTlUQAc5Q 密码: 8nmm

  • 提交内容

(1)算法说明文档或PPT

(2)算法源代码

(3)测试数据的预测结果(可重复提交,但每天只能提交一次,最终结果取最优的一次)
   提交地址:dailidong@analysys.com.cn

  • 评分方式

   计算结果正常的情况下,对用时进行排名,用时少者获胜。

  • 参赛指导

     数据准确性和算法的要求,需提前说清楚,报名后,会有大赛小助手拉您入群,群内有专门的技术人员进行解答

     联系人:Cari 手机&微信:13011177753 邮件:zhangyue@analysys.com.cn

即刻报名

拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 400 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个6个月内逾 个月内逾 期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来用户在未来 用户在未来 用户在未来 6个月内是否会逾期还款的概率。 个月内是否会逾期还款的概率。 个月内是否会逾期还款的概率。 个月内是否会逾期还款的概率。 个月内是否会逾期还款的概率。 个月内是否会逾期还款的概率。 个月内是否会逾期还款的概率。 问题转换成 问题转换成 问题转换成 2分类问题,评估指标为 分类问题,评估指标为 分类问题,评估指标为 分类问题,评估指标为 分类问题,评估指标为 分类问题,评估指标为 分类问题,评估指标为 AUC ,从 Master Master Master,LogInfoLogInfo LogInfo ,UpdateInfo UpdateInfo UpdateInfo 表中构建 表中构建 特征,考虑评估指标为 特征,考虑评估指标为 特征,考虑评估指标为 特征,考虑评估指标为 特征,考虑评估指标为 AUC AUC,其本质是排序优化问题,所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 ,其本质是排序优化问题所以我们在模型顶层融合也使用基于 排序优化的 排序优化的 排序优化的 RANK_AVG RANK_AVG RANK_AVG融合方法。 融合方法。 融
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值