用户行为数据仓库 第 5 节 业务知识准备

上篇:用户行为数据仓库 第 4 节 DWD层数据解析脚本


1、业务术语

  1. 用户
    用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。

  2. 新增用户
    首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。

  3. 活跃用户
    打开应用的用户即为活跃用户,不考虑用户的使用情况。每天一台设备打开多次会被计为一个活跃用户。

  4. 周(月)活跃用户
    某个自然周(月)内启动过应用的用户,该周(月)内的多次启动只记一个活跃用户。

  5. 月活跃率
    月活跃用户与截止到该月累计的用户总和之间的比例。

  6. 沉默用户
    用户仅在安装当天(次日)启动一次,后续时间无再启动行为。该指标可以反映新增用户质量和用户与APP的匹配程度。

  7. 版本分布
    用户仅在安装当天(次日)启动一次,后续时间无再启动行为。该指标可以反映新增用户质量和用户与APP的匹配程度。

  8. 本周回流用户
    上周未启动过应用,本周启动了应用的用户。

  9. 连续n周活跃用户
    连续n周,每周至少启动一次。

  10. 忠诚用户
    连续活跃5周以上的用户

  11. 连续活跃用户
    连续2周及以上活跃的用户

  12. 近期流失用户
    连续n(2<= n <= 4)周没有启动应用的用户。(第n+1周没有启动过)

  13. 留存用户
    某段时间内的新增用户,经过一段时间后,仍然使用应用的被认作是留存用户;这部分用户占当时新增用户的比例即是留存率。
    例如,5月份新增用户200,这200人在6月份启动过应用的有100人,7月份启动过应用的有80人,8月份启动过应用的有50人;则5月份新增用户一个月后的留存率是50%,二个月后的留存率是40%,三个月后的留存率是25%。

  14. 用户新鲜度
    每天启动应用的新老用户比例,即新增用户数占活跃用户数的比例。

  15. 单次使用时长
    每次启动使用的时间长度。

  16. 日使用时长
    累计一天内的使用时间长度。

  17. 启动次数计算标准
    IOS平台应用退到后台就算一次独立的启动;Android平台我们规定,两次启动之间的间隔小于30秒,被计算一次启动。用户在使用过程中,若因收发短信或接电话等退出应用30秒又再次返回应用中,那这两次行为应该是延续而非独立的,所以可以被算作一次使用行为,即一次启动。业内大多使用30秒这个标准,但用户还是可以自定义此时间间隔。


2、系统函数

collect_set函数
(1) 创建原数据表

hive (gmall)>
drop table if exists stud;
create table stud (name string, area string, course string, score int);

(2)向原数据表中插入数据

hive (gmall)>
insert into table stud values('zhang3','bj','math',88);
insert into table stud values('li4','bj','math',99);
insert into table stud values('wang5','sh','chinese',92);
insert into table stud values('zhao6','sh','chinese',54);
insert into table stud values('tian7','bj','chinese',91);

(3)查询表中数据

hive (gmall)> select * from stud;

stud.name       stud.area       stud.course     stud.score
zhang3 bj      math    88
li4     bj      math    99
wang5   sh      chinese 92
zhao6   sh      chinese 54
tian7   bj      chinese 91

(4)把同一分组的不同行的数据聚合成一个集合

select course, collect_set(area), avg(score) from stud group by course;

chinese ["sh","bj"]     79.0
math    ["bj"]  93.5

(5)用下标可以取某一个

hive (gmall)> select course, collect_set(area)[0], avg(score) from stud group by course;

chinese sh      79.0
math    bj      93.5

日期处理函数
(1)date_format函数(根据格式整理日期)

hive (gmall)> select date_format('2019-02-10','yyyy-MM');

2019-02

(2)date_add函数(加减日期)

hive (gmall)> select date_add('2019-02-10',-1);
2019-02-09
hive (gmall)> select date_add('2019-02-10',1);
2019-02-11

(3)next_day函数

  1. 取当前天的下一个周一
hive (gmall)> select next_day('2019-02-12','MO');
2019-02-18

说明:星期一到星期日的英文(Monday,Tuesday、Wednesday、Thursday、Friday、Saturday、Sunday)

  1. 取当前周的周一
hive (gmall)> select date_add(next_day('2019-02-12','MO'),-7);

2019-02-11
  1. last_day函数(求当月最后一天日期)
hive (gmall)> select last_day('2019-02-10');

2019-02-28
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值