日志分析案例
1、分析流程
-》需求分析
-》数据采集
-》数据清洗
-》数据分析
-》结果展示
2、【需求分析】
-》日期
-》按照日期进行分组,基于时间维度的分析
-》可以考虑建分区表,分区给定日期
-》登录人数,代表的就是会员,使用账号登录的人
-》登录之后会产生一个会员ID
-》处理的时候可以看会员ID有没有值
-》PV
-》count(url)
-》UV
-》count(distinct(guid))
-》平均访问时长
-》当进入页面开始会在后台开启一个会话,sessionID生成
-》会话关闭代表sessionID失效,再次建立会话,会生成不同的sessionID
-》进入页面的第一条记录的时间戳和最后离开的最后一条记录的时间戳,进行相减得到访问时长
-》再对session进行分组,最后求得平均访问时长
-》二跳率
-》一个用户在一个session会话中点击了大于等于2的网页数量
-》一个页面就是一个PV,PV大于等于2的统计,再除以总的人数
-》独立IP
-》distinct(ip)
预期:
日期 PV UV 登录人数 游客人数
1、分析流程
-》需求分析
-》数据采集
-》数据清洗
-》数据分析
-》结果展示
2、【需求分析】
-》日期
-》按照日期进行分组,基于时间维度的分析
-》可以考虑建分区表,分区给定日期
-》登录人数,代表的就是会员,使用账号登录的人
-》登录之后会产生一个会员ID
-》处理的时候可以看会员ID有没有值
-》PV
-》count(url)
-》UV
-》count(distinct(guid))
-》平均访问时长
-》当进入页面开始会在后台开启一个会话,sessionID生成
-》会话关闭代表sessionID失效,再次建立会话,会生成不同的sessionID
-》进入页面的第一条记录的时间戳和最后离开的最后一条记录的时间戳,进行相减得到访问时长
-》再对session进行分组,最后求得平均访问时长
-》二跳率
-》一个用户在一个session会话中点击了大于等于2的网页数量
-》一个页面就是一个PV,PV大于等于2的统计,再除以总的人数
-》独立IP
-》distinct(ip)
预期:
日期 PV UV 登录人数 游客人数