面筋哥
文章平均质量分 76
Cold丶kl
这个作者很懒,什么都没留下…
展开
-
头条数仓模型开发工程师 -面筋二
为什么叫BDM、为什么叫FDM一、模型分层缓冲数据模型 BDM (Buffer data model)源业务系统数据的快照,保存细节数据,按天分区,会保持最近一段时间数据。一般情况下,每个BDM表对应着源业务系统的一个表或者一个日志文件,数据结构与线上基本是对应的。绝大多数的数据快照是经过增量抽取策略抽过来了,对于不支持增量抽取策略或者数据量极少的表采用全量抽取的策略。基础数据模型 FDM (Foundation data model)基础数据模型,用来保存源业务系统数据的快照,数据永..原创 2021-01-19 14:49:23 · 614 阅读 · 2 评论 -
头条数仓模型开发工程师 -面筋一
uid tmu1 10:00:05u1 10:00:10u1 10:00:15u1 10:20:00u2 10:31:00求:超过2min算不在线,统计停留时长解:分组排序,表自关联,交叉错位相减selecta.uid,a.start_tm,a.start_tms,a.rank,(end_tms-start_tm) as stop_tms,case (end_tms-start_tm) > 120000 then 1 else 0 as morn_2m原创 2021-01-19 14:47:12 · 396 阅读 · 0 评论 -
数仓建模相关理论
一、关系模型ER建模从全企业的高度设计一个3NF模型的方法,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF,其是站在企业角度进行面向主题的抽象,而不是针对某个具体业务流程的二、维度模型以维度建模为基础,根据业务域和数据域设计主题模型,构建一致性的维度和事实。一、星形模型 星形模型偏多星型模型:是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的原创 2021-01-19 14:28:14 · 529 阅读 · 0 评论 -
京东数仓分层相关
一、模型分层缓冲数据模型 BDM源业务系统数据的快照,保存细节数据,按天分区,会保持最近一段时间数据。一般情况下,每个BDM表对应着源业务系统的一个表或者一个日志文件,数据结构与线上基本是对应的。绝大多数的数据快照是经过增量抽取策略抽过来了,对于不支持增量抽取策略或者数据量极少的表采用全量抽取的策略。基础数据模型 FDM基础数据模型,用来保存源业务系统数据的快照,数据永久保存。对于有更新操作的数据来说,采用拉链的方式优化存储。对于没有更新操作的数据来说,采用流水方式存储。通用数据模型 GDM根原创 2021-01-19 14:27:30 · 1128 阅读 · 0 评论 -
Kafka面筋 -转载
1.Kafka 的设计时什么样的呢?Kafka 将消息以 topic 为单位进行归纳将向 Kafka topic 发布消息的程序成为 producers.将预订 topics 并消费消息的程序成为 consumer.Kafka 以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个 broker.producers 通过网络将消息发送到 Kafka 集群,集群向消费者提供消息2.数据传输的事物定义有哪三种?数据传输的事务定义通常有以下三种级别:(1)最多一次: 消息不会被重复发送,最多被传原创 2021-01-19 14:12:51 · 81 阅读 · 0 评论 -
大数据开发面筋之 慢SQL及数据倾斜问题及解决方案
Spark - 慢SQL问题1. 错误的使用低性能函数2. 数据倾斜一、错误使用低性能函数案例1:在对某个表流量上报字段判断是否包含SKU, 使用正则(.*?)+加其他正则联合匹配,导致本来几分钟能跑完SQL跑几个小时发现:Spark 某个Stage 单task input 特别慢定位:查看input阶段 filter 操作都有哪些,最终找到正则问题本质:谓词下推解决方案:1. 在使用正则之前,提前对这个字段进行 is not null 进行过滤,减少大量无效数据,在进行正则【提升90原创 2021-01-19 14:07:44 · 272 阅读 · 0 评论 -
大数据开发面试之UDF/UDAF/UDTF其变种函数总结
Hive的自定义函数,分为三种:UDF、UDAF、UDTFUDF:User Defined Functions,自定义函数,用来处理,输入一行,输出一行的操作,类似MapReduce中Map操作UDAF:User Defined Aggregation Functions,自定义聚合函数,用来处理输入多行,输出一行的操作,类似MapReduce中Reduce操作UDTF:User Defined Table Generating Functions,自定义表产生函数,用来处理输入一行,输出多行的操作原创 2021-01-19 14:09:08 · 515 阅读 · 0 评论 -
高途课堂 -大数据开发工程师 面筋
持续1小时,只有一面,个人总结:整体难度简单,问的都会,很轻松就可以解决,主要围绕项目或者说简历上写的去问自我介绍1.1 为什么离职?详细聊具体项目3, 数仓建模 理论数仓分层 好处及坏处一、模型分层缓冲数据模型 BDM源业务系统数据的快照,保存细节数据,按天分区,会保持最近一段时间数据。一般情况下,每个BDM表对应着源业务系统的一个表或者一个日志文件,数据结构与线上基本是对应的。绝大多数的数据快照是经过增量抽取策略抽过来了,对于不支持增量抽取策略或者数据量极少的表采用全量抽原创 2021-01-19 14:06:10 · 1200 阅读 · 1 评论