写个数仓吧（7）用户行为数据仓—— DWS层，用户活跃主题

最新推荐文章于 2022-01-17 16:58:43 发布

KujyouRuri

最新推荐文章于 2022-01-17 16:58:43 发布

阅读量206

点赞数

本文链接：https://blog.csdn.net/KujyouRuri/article/details/116465297

版权

本文主要介绍了在数据仓库的DWS层如何构建用户活跃主题的统计分析，包括每日、每周和每月活跃设备的明细。通过建表、数据导入和查询，展示了如何从用户单日访问数据中聚合信息，并利用Hadoop脚本进行数据加载和处理，以获取不同粒度的用户活跃度数据。

摘要由CSDN通过智能技术生成

需求一：用户活跃主题

分层：DWS层
目标：统计当日、当周、当月活动的每个设备明细

每日活跃：

建表语句

hive (gmall)>
drop table if exists dws_uv_detail_day;
create   table dws_uv_detail_day( 
 `mid_id` string COMMENT '设备唯一标识',
`user_id` string COMMENT '用户标识', 
`version_code` string COMMENT '程序版本号', 
 `version_name` string COMMENT '程序版本名', 
`lang` string COMMENT '系统语言', 
`source` string COMMENT '渠道号', 
`os` string COMMENT '安卓系统版本', 
`area` string COMMENT '区域', 
`model` string COMMENT '手机型号', 
`brand` string COMMENT '手机品牌', 
`sdk_version` string COMMENT 'sdkVersion', 
`gmail` string COMMENT 'gmail', 
`height_width` string COMMENT '屏幕宽高',
`app_time` string COMMENT '客户端日志产生时的时间',
`network` string COMMENT '网络模式',
`lng` string COMMENT '经度',
`lat` string COMMENT '纬度'
) COMMENT '活跃用户按天明细'
PARTITIONED BY ( `dt` string)
stored as  parquet
location '/warehouse/gmall/dws/dws_uv_detail_day/'
;

2）数据导入
以用户单日访问为key进行聚合，如果某个用户在一天中使用了两种操作系统、两个系统版本、多个地区，登录不同账号，只取其中之一

hive (gmall)>
set hive.exec.dynamic.partition.mode=nonstrict;  //非严格动态分区

insert overwrite table dws_uv_detail_day  partition(dt)
select  
    mid_id,
    collect_set(user_id)[0] user_id,
    collect_set(version_code)[0] version_code,
    collect_set(version_name)[0] version_name,
    collect_set(lang)[0]lang,
    collect_set(source)[0] source,
    collect_set(os)[0] os,
    collect_set(area)[0] area, 
    collect_set(model)[0] model,
    collect_set(brand)[0] brand,
    collect_set(sdk_version)[0] sdk_version,
    collect_set(gmail)[0] gmail,
    collect_set(height_width