Hive日志分析案例

日志分析案例
1、分析流程
-》需求分析
-》数据采集
-》数据清洗
-》数据分析
-》结果展示
2、【需求分析】
-》日期
-》按照日期进行分组,基于时间维度的分析
-》可以考虑建分区表,分区给定日期
-》登录人数,代表的就是会员,使用账号登录的人
-》登录之后会产生一个会员ID
-》处理的时候可以看会员ID有没有值
-》PV
-》count(url)
-》UV
-》count(distinct(guid))
-》平均访问时长
-》当进入页面开始会在后台开启一个会话,sessionID生成
-》会话关闭代表sessionID失效,再次建立会话,会生成不同的sessionID
-》进入页面的第一条记录的时间戳和最后离开的最后一条记录的时间戳,进行相减得到访问时长
-》再对session进行分组,最后求得平均访问时长
-》二跳率
-》一个用户在一个session会话中点击了大于等于2的网页数量
-》一个页面就是一个PV,PV大于等于2的统计,再除以总的人数
-》独立IP
-》distinct(ip)


预期:
日期 PV UV 登录人数 游客人数
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值