数据仓库
文章平均质量分 85
数据仓库
shangjg3
这个作者很懒,什么都没留下…
展开
-
风控指标总结
互联网金融风险管理是一个复杂的过程,涉及多个方面的指标。通过上述指标的监控和分析,互联网金融机构可以更好地识别、评估、监控和控制风险,从而保护企业资产、维护客户利益,并确保业务的可持续发展。随着金融科技的不断进步,风险管理指标也将不断更新和完善,以适应不断变化的市场环境和监管要求。风险管理框架成熟度是指评估金融机构风险管理框架的成熟程度,包括风险管理政策、流程、工具和技术支持的完善程度。风险管理流程效率是指评估风险管理流程的有效性和效率,包括风险识别、评估、监控和缓解措施的执行情况。原创 2024-03-29 10:05:32 · 556 阅读 · 0 评论 -
用户行为类指标总结
用户行为分析是对用户在产品或触点上产生的行为及行为背后的数据进行分析,通过构建用户行为数据分析体系或者用户画像,来改变产品、营销、运营决策,实现精细化运营,指导业务增长。首次联网使用应用的用户,如果一个用户首次打开某APP,那这个用户定义为新增用户:卸载再安装的设备,不会被算作一次新增,新增用户包括日新增用户,周新增用户,月新增用户。某段时间内的新增用户,经过一段时间后,仍然使用应用的被认作是留存用户:这部分用户占当时新增用户的比例即是留存率。用户仅在安装当天(次日)启动一次,后续时间无再启动的行为。原创 2024-03-26 13:25:13 · 923 阅读 · 0 评论 -
数仓建模架构—Inmon范式建模与Kimball维度建模
在数据仓库领域,有两位大师,一位是“数据仓库”之父 Bill Inmon,一位是数据仓库权威专家 Ralph Kimball,两位大师每人都有一本经典著作,Inmon大师著作《数据仓库》及Kimball大师的《数仓工具箱》,两本书也代表了两种不同的数仓建设模式,这两种架构模式支撑了数据仓库以及商业智能近二十年的发展。例:某公司的各个商品在全国各地市的销售情况,维度就是全国的城市和各个商品,度量就是商品的单价,从不同的维度计算销售额:如查看北京市酸奶的销售额,上海市纯牛奶的销售额,这就是不同的维度组合方式。原创 2024-03-22 13:41:36 · 1055 阅读 · 0 评论 -
数据仓库的数据处理架构Lambda和Kappa
1.数据仓库数据仓库(Data Warehouse),简写DW。顾名思义,数据仓库是一个很大的数据存储集合,为企业分析性报告和决策支持而创建,是对多元业务数据的筛选与整合,具备一定的BI能力,主要用于企业的数据分析、数据挖掘、数据报表等方向,指导业务流程改进、监视时间、成本、质量以及控制。2.数据仓库架构了解完数仓之后,我们再来谈数仓架构。“架构”是什么?到目前为止,还没有出现公认的标准答案。原创 2024-03-22 09:57:35 · 1303 阅读 · 0 评论 -
湖仓一体分层设计
产生的影响,需要具体到,是新增一条数据,还是修改一条数据,并且需要明确新增的内容或者是修改的逻辑。矩阵的行是一个个业务过程,矩阵的列是一个个的维度,行列的交点表示业务过程与维度的关系。这种情况下,我们就可以考虑将这些公共的派生指标保存下来,这样做的主要目的就是减少重复计算,提高数据的复用性。例如比率、比例等类型的指标。下面业务电商中的交易为例进行演示,交易业务涉及到的业务过程有买家下单、买家支付、卖家发货,买家收货,具体流程如下图。,例如该需求所需的业务过程就是买家下单,所需的维度有日期,省份,商品品类。原创 2024-03-21 14:12:54 · 929 阅读 · 0 评论 -
维度建模理论之维度表
需要注意到,可能存在多个事实表与同一个维度都相关的情况,这种情况需保证维度的唯一性,即只创建一张维度表。维度属性通常不是静态的,而是会随时间变化的,数据仓库的一个重要特点就是反映历史的变化,所以如何保存维度的历史状态是维度设计的重要工作之一。拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期。在设计维度表时,如果对其进行规范化,得到的维度模型称为雪花模型,如果对其进行反规范化,得到的模型称为星型模型。维度表的粒度通常与主维表相同。原创 2024-03-21 10:28:30 · 902 阅读 · 0 评论 -
维度建模理论之事实表
第一步选择业务过程可以确定有哪些事务型事实表,第二步可以确定每张事务型事实表的每行数据是什么,第三步可以确定每张事务型事实表的维度外键,第四步可以确定每张事务型事实表的度量值字段。此处以电商中的虚拟货币为例,虚拟货币业务包含的业务过程主要包括获取货币和使用货币,两个业务过程各自对应一张事务型事实表,一张存储所有的获取货币的原子操作事件,另一张存储所有使用货币的原子操作事件。事实表有三种类型:分别是事务事实表、周期快照事实表和累积快照事实表,每种事实表都具有不同的特点和适用场景,下面逐个介绍。原创 2024-03-19 04:00:00 · 801 阅读 · 0 评论 -
离线数仓、实时数仓与数据湖
现在企业的数据仓库都会通过分层的方式将数据存储在文件夹、文件中,而数据湖使用的是平面架构来存储数据。数据湖是用于长期存储数据容器的集合,通过数据湖可以大规模的捕获、加工、探索任何形式的原始数据。但数据湖的设计理念是相反的,数据仓库是为了保障数据的质量、数据的一致性、数据的重用性等对数据进行结构化处理。数据湖越来越多的用于描述任何的大型数据池,数据都是以原始数据方式存储,知道需要查询应用数据的时候才会开始分析数据需求和应用架构。长期存储数据的成本低廉,数据湖可以安装在低成本的硬件在,例如:在一般的。原创 2024-03-19 03:00:00 · 375 阅读 · 0 评论 -
数仓建模简介
实际上,1NF是所有关系型数据库的最基本要求,你在关系型数据库管理系统(RDBMS),例如SQL Server,Oracle,MySQL中创建数据表的时候,如果数据表的设计不符合这个最基本的要求,那么操作一定是不能成功的。也就是说,只要在RDBMS中已经存在的数据表,一定是符合1NF的。比如,这张表的主键是 (学号,课名),分数确实完全依赖于 (学号,课名),但是姓名并不完全依赖于(学号,课名)比如通过,(学号,课程) 推出姓名,因为其实直接可以通过,学号推出姓名,所以:姓名 部分依赖于 (学号,课程)原创 2024-03-18 16:31:43 · 687 阅读 · 0 评论