离线数仓做多维度报表

iLoveCoffe

已于 2022-04-01 20:07:30 修改

阅读量748

点赞数

分类专栏：自学笔记文章标签：数据仓库

于 2022-04-01 20:04:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59887059/article/details/123900993

版权

自学笔记专栏收录该内容

23 篇文章 0 订阅

订阅专栏

我们把数据写道dwd层以后，就可以做一些报表统计了

首先要理解一些概念

分析主题、度量、维度

分析主题：

流量概况分析子主题、访问分析子主题、来源分析子主题、访客分析子主题

核心度量：

pv数、uv数、会话数、跳出数、访问时长

核心维度：

地域维度、访客新老属性、来源维度、时间维度、终端设备属性、网络属性、入口页、退出页、是否跳出会话

维表的数据获取方式：

引入业务表作为维表

引入画像标签表作为维表

根据规律手动构建

通过计算构建出维表

1-如何获取到某个网页的贡献量

因为对于某个网页的贡献量的计算是：

a的子节点个数 + a的所有的子节点的贡献量

例如:

a->b

b->c

b->d

c->f

f->b

f->h

得出a的贡献量为6

这个算法很难用sql来实现

因为这个数据结构很适合用二叉树来表达

因此我们使用二叉树的数据结构，并使用递归的方式，来计算出每个节点的贡献量

问题产生：

1.算出来的每个节点的贡献量要怎么保存？

解决方法：

可以再递归方法中传出一个ListBuffer，用来存储一个元组（节点名称,贡献量）

2.要怎么将这些网页名称放进二叉树这个数据结构中呢?

解决方法：

写一个spark程序：

1. 读取数据部分:

先从用户日志信息明细表 dwd.mall_applog_detail 中读取数据，

将数据封装进一个pojo中,包含的字段有

(page_url,

guid,

session_id,

ts,

ref_url

)

按照session_id的来group by

相同会话id分到一起

2. 逻辑部分****************(重点)

首先，我们要遍历每条pojo，将里面的url 都创建为一个节点，并保存到一个ListBuffer_tree中（这个ListBuffer 也就是生成了一个树）

并且，再创建节点后，再取出ref_url 来判断它是否应该有父节点

如果有父节点，就从ListBuffer_tree中找到一个最近的父节点，更改它的子节点信息

而且，一个session_id 中，可能有多次是没有ref_url，即来源网页的，也就是要生成多个数

，因此我们再最开始生成一个ListBuffer_trees,来存放Listbuffer_tree

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
离线数仓做多维度报表

我们把数据写道dwd层以后，就可以做一些报表统计了首先要理解一些概念分析主题、度量、维度分析主题：流量概况分析子主题、访问分析子主题、来源分析子主题、访客分析子主题核心度量：pv数、uv数、会话数、跳出数、访问时长核心维度：地域维度、访客新老属性、来源维度、时间维度、终端设备属性、网络属性、入口页、退出页、是否跳出会话维表的数据获取方式：引入业务表作为维表引入画像标签表作为维表根据规律手动构建通过计算构建出维表1-如何获取到某个网页的贡
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。