大数据
大象灵感
写sql的
展开
-
实时大数据Flink知识结构(深度好文,附脑图)
实时大数据Flink知识结构图·Flink基本概念o概念官方定义:Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments perform computa...原创 2021-10-26 19:00:00 · 708 阅读 · 0 评论 -
数据仓库需求管理文档
需求名称:干系人:分析师:数仓开发:需求涉及项: 需求涉及项 记录 离线or实时* 是否涉及历史数据处理* 是否涉及报表处理* 是否需要UAT或测试环境数据* 需求变更记录: 调整主要内容* 变更日期 版本号 .原创 2021-10-14 16:28:06 · 508 阅读 · 0 评论 -
验证collect_set后的数据是否比展开的数据占用空间小
验证collect_set后的数据是否比摊开的数据占用空间小?文件格式:parquet去重记录数:776885759验证方式:读取用户日志表,A表记录用户id和日志时间的去重记录,B表把用户id和该用户对应的日志时间的数组作为一行来记录。B表展开后与A表相同。两表存储的数据量是相同的。最后观察A表和B表的磁盘占用空间是否相同。实现结论:A表占用10.9G,B表占用4.7G,说明collect_set后的数据占用空间更小,节省磁盘空间57%。-- 表A:crea原创 2021-10-12 14:19:51 · 204 阅读 · 0 评论 -
数仓归因逻辑实践方案(sql实现)
分享一个相对简洁的处理归因的方式:使用下面逻辑归因的前提是归因事件类型是可枚举的,且是有一定的顺序的(其实归因事件都具备)。例如直播中的上下麦归因事件中,把同属于一组的上麦下麦的流水日志归到同一条记录中,方便后续对上下麦的各种统计。从业务上来讲,上麦下麦正常的事件发生顺序只有以下三种:申请上麦->上麦成功->下麦 上麦成功->下麦 申请上麦->取消申请然后给不同的事件类型以预期时间序列值,就是下面脚本中的action_seq。下面的截图展示了如何区分同一个序原创 2021-10-09 15:04:47 · 714 阅读 · 1 评论 -
数据仓库之—埋点全流程
控制好上游的埋点,就能在数仓范围上,更合理的规划模型。试想,如果把所有的埋点数据抽象到一个模型中,一个模型能满足所有的埋点查询需求,是不是解放了数仓的大量流量数据需求。埋点流程① 提出埋点需求产品运营预估未来的数据需求,并根据这些数据需求提出埋点。② 埋点评审产品运营+数据团队+开发团队,三方共同评审埋点的合理性。埋点评审评什么?有无埋点的必要?是否有除了埋点更好的方案? 埋点内容的技术可行性?——技术回答 埋点是否能满足未来的数据需求? 是否有更合适的埋点方案?③ 埋点原创 2021-10-02 21:14:32 · 476 阅读 · 0 评论 -
Spark并行机制简记
几个基础概念RDD分区:Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区(partitions),这些分区被分发到集群中的不同节点上进行计算。每个分区对应需要启动一个task去执行该分区的数据计算。Executor:是spark任务(task)的执行单元executor下的cores:顾名思义这个参数是用来指定executor的cpu内核个数,分配更多的内核意味着executor并发能力越强,能够同时执行更多的task。下面是一个具体的case分区数:表示同原创 2021-09-26 23:16:53 · 710 阅读 · 0 评论 -
SparkUI怎么看—Stage指标汇总
SparkUI是spark任务的重要工具,这里能看到spark任务的运行状态到底是如何的,它能给我们的调优工作提供大部分的线索。下面是一个spark任务在map、shuffle、reduce三个阶段的典型情况,供参考:Map Stage:Shuffle Stage:Reduce Stage:...原创 2021-08-29 14:44:32 · 1245 阅读 · 0 评论