网站流量日志分析——day3

本文介绍了网站流量日志分析项目,包括维度建模的星型、雪花和星座模式,数仓设计的ETL过程,以及Hive中的自定义函数和lateral view的使用。重点讲解了分析指标,如PageView、Unique Visitor和访问时长等,并探讨了基础和复合值指标在评估网站性能中的作用。
摘要由CSDN通过智能技术生成

维度建模:

以维度为标准,开展数据的分析需求

适用于面向分析领域的理论。比如分析性数据库 数据仓库 数据集市(OLAP)

  • 事实表

分析主题的客观事实度量 是分析主题的数据聚集 事实表中一条记录往往对应着客观的一个事件 往往是一堆主键的聚合

  • 维度表

从不同角度分析事实表 可以通过不同维度去分析同一个事实表 得出不同的分析结果 维度表可以和事实表进行关联查询

  • 维度表

所谓的多位数据分析就是指通过不同的维度的聚集计算出某种度量值
常见度量值:max min count sum avg topN

举个栗子:统计来自于北京女性24岁未婚的过去三年购物金额最多的前三个。

维度:地域  性别  年龄  婚姻  时间
度量值:sum(订单金额)--->top3
  • 维度建模三种模式
  • 星型模式

以一个事实表为中心,多个维度表,维度表之间没有关系 维度表跟事实表之间进行关联 (企业发展初期)

  • 雪花模型

可以拥有其他的维度表。维度表之间可以继续关联,不利于维护,企业中要避免设计成这种模型

  • 星座模式

是星型模型的延伸。基于多张事实表,多个维度表 多个维度表可以共用 而且共享维度信息。一般出现在业务发展的中后期

数仓设计(也称之为ETL)

数仓入库

ETL (提取 转换 加载)

提取可以用flume,转换用MapReduce,加载用sqoop(当然这些技术只是举例,也可以用别的技术)

手动etl 使用command shell hadoop hivesql把数据填充到数据仓库中

软件etl sqoop kettle

  • 创建ODS层表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值