数据仓库
文章平均质量分 77
zdkdchao
这个作者很懒,什么都没留下…
展开
-
GaussDB
而dws(Distributed Warehouse Service)是基于GaussDB构建的一款分布式数据仓库解决方案,它在GaussDB的基础上增加了大规模并行处理(MPP)的能力,能够在分布式集群中进行高效的数据分析和查询。两者在架构和功能上有一定的差异,适用于不同的场景和需求。GaussDB是华为自主研发的一款分布式关系型数据库管理系统(RDBMS),它具有高性能、高可靠性和高可扩展性的特点,适用于大规模数据存储和处理的场景。原创 2023-09-07 13:19:31 · 331 阅读 · 0 评论 -
SQL的执行顺序
sql执行顺序原创 2022-09-19 20:32:20 · 486 阅读 · 0 评论 -
hive-函数
其实就是if else,根据表中数据,计算结果,返回一列一般用来转化,转化什么呢?select查出来是一行行的,但有时需要根据将一个维度转化成另一个维度。比如省份列,将山东转成山东省,或者码值。或者改变下维度的层级。比如省份列,将山东转成华北,将山东济南转成济南。.....................................................................原创 2022-06-15 10:49:38 · 2597 阅读 · 0 评论 -
数据分析和数据开发的区别
数据分析(DA)和数据开发/数据仓库工程师(DE)究竟有什么区别,工作职责和工作内容上的差异是什么?一般都知道,数仓偏开发,主要是技术层面的工作,负责ETL、数仓、分布式计算、大数据运维等。数分偏业务,通过分析数据、建模、搭建指标体系,找出规律,给业务赋能。数仓同学日常负责一个业务整个数据体系的构建,也就是传说中的“数据仓库”。这个仓库中既有最底层的明细数据表,也有一层一层做过计算和组合的聚合数据表。数据分析师在日常工作中,经常会使用各种聚合表做一些简单的可视化或更复杂的分析,来监控业务的核心指标或者原创 2022-01-21 11:22:37 · 5323 阅读 · 0 评论 -
数仓-HQL规范
好的开发规范是必不可少的。1. 规范目的养成良好的编程习惯写出清楚、易懂、易维护的程序代码提高代码质量与生产率减少软件编码中的不必要的错误2. 开发规约所有查询必须指定具体字段统一采用小写字母编码(不包含参数、注解),遵循SQL 92语法标准所有查询表名必须添加数据库名+表名HQL文件一定要设置任务名名称HQL【会话临时表】必须要在末尾删除别名一定要加AS关键字,多表关联必须要AS别名字符串用单引号包括不能使用SQL 必须经过验证,更新数仓再执行SQL代码中严格禁止使用硬编码原创 2021-06-14 01:43:32 · 603 阅读 · 0 评论 -
DW-2种架构的区别
这两种结构的相似之处:一、都是假设操作型系统和分析型系统是分离的;二、数据源(操作型系统)都是众多;三、ETL整合了多种操作型系统的信息,集中到一个企业数据仓库。最大的不同就是企业数据仓库的模式不同:inmon是采用第三范式的格式,kimball采用了多维模型–星型模型,并且还是最低粒度的数据存储。其次,维度数据仓库可以被分析系统直接访问(这种访问方式毕竟在分析过程中很少使用)。最后就是数据集市的概念有逻辑上的区别,在kimball的架构中,数据集市用维度数据仓库的高亮显示的表的子集来表示。在kim..原创 2021-02-20 12:10:14 · 617 阅读 · 1 评论 -
数仓-开发规范
数据模型规范层表测试表、中间表字段分区字段任务脚本注释数据操作规范对表数据或者结构需要修改的时候,必须先建一个备份表,以后缀 _BAK_20170907 备份,处理好以后再删除备份表。特别是猛犸大数据平台的线上和开发环境是共用数据和表,必须保证数据不能丢失。表的主题规范指标一致性数据质量管理表级别监控,在每个etl任务下添加数据质量节点,对表中指标或者属性添加对应的规则判断,对于核心规则,直接报错阻止污染下游,对于预判规则,短信告警但是不阻止任务继续往下游执行;对于复杂指标,原创 2021-01-07 21:11:39 · 1167 阅读 · 0 评论 -
数仓02-从0到1设计和搭建
数仓的知识原创 2021-02-02 16:31:45 · 4620 阅读 · 2 评论 -
数仓01-概念的理解和方法论
数仓分层计算逻辑、计算结果复用。提取公共逻辑解耦,方便表的管理降低sql复杂度,比如bds中的宽表,减少join模型模型,在数仓中就是表结构建模:建表和表之间关系1. 星型 不完全星型模型事实表中,不是所有维度都按维度主键信息存储(维度退化)地域维度信息:年月日周等时间维度信息,这些维度信息,基本不会发生任何改变,并且在大部分主题分析场景中,都需要使用,直接在事实表中存储维度值页面信息:页面类别信息,频道信息,业务活动信息,会员等级信息等,可能发生缓慢变化原创 2020-10-09 00:50:23 · 4018 阅读 · 1 评论 -
架构-分层
buffer:缓冲层,清洗,把源表拉过来,把data类型改成string类型ods:基础层,大本营,别的层找不到的就从这层bds:宽表,避免joinmds:指标,可以说就是成品了,可以直接用或者再进行简单的加工...原创 2020-08-22 08:30:05 · 163 阅读 · 0 评论