四月天03
能用钱解决的问题,千万别花时间
展开
-
业务架构、应用架构、数据架构、技术架构
数据建模的方法包括面向结构的传统ER模型分析方法,也包括面向对象的对象类模型分析方法,它们都是可行的数据建模方法,只是传统ER模型分析方法更容易实现向底层物理数据库模型的转换,而面向对象的对象类建模方法更容易体现抽象和复用。业务架构是对业务需求的提炼和抽象,使用一套方法论对产品(项目)所涉及需求的业务进行业务边界划分,简单地讲就是根据一套逻辑思路进行业务的拆分,开发软件必须满足业务需求,否则就是空中楼阁。例如,对于比较类似的业务系统,可能业务架构在比较粗的颗粒度上是一样的,而在细化过程中不一样。...原创 2021-12-11 18:07:14 · 5468 阅读 · 0 评论 -
指标的统一管理和分析平台
在企业普遍开展数字化转型、以数据驱动决策的当下,如何构建企业的统一数据视图,深度挖掘数据价值,支撑各级业务团队进行高效的经营管理,已成为企业面临的一个现实挑战。过去基于报表来响应业务用数需求的模式变得越来越低效。由此产生各部门间的数据定义和实施方式差异,导致企业数据集市的碎片化,不利于企业整体的数据治理。伴随而来的一系列问题,例如报表体系混乱,报表口径不一致和不透明,报表大量重复开发,缺乏数据价值管理体系等,严重阻碍了企业数字化经营的战略落地。应用场景近几年,不...原创 2022-04-03 15:20:38 · 1469 阅读 · 0 评论 -
数仓指标体系建设
一、什么是指标体系1、指标体系定义指标体系是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。它主要由指标和体系两部分组成。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。指标主要分为结果型和过程型:结果型指标:用于衡量用户发生某个动作后所产生的结果,通常是延后知道的,很难进行干预。结果型指标更多的是监控数据异常,或者是监控某个场.........原创 2021-12-13 14:55:07 · 2203 阅读 · 0 评论 -
数据中台 第9章 数据服务体系建设,数据赋能
9.1.1 定义与定位数据服务是对数据进行计算逻辑的封装(过滤查询、多维分析和算法推理等计算逻辑),生成API服务,上层数据应用可以对接数据服务API,让数据快速应用到业务场景中9.1.2 主要分类按照数据与计算逻辑封装方式的不同,数据服务可分为以下三类:·基础数据服务:它面向的对象是物理表数据,主要面向的场景包括数据查询、多维分析等,通过自定义SQL的方式实现数据中台全域物理表数据的指标获取和分析。·标签画像服务:它面向的对象是标签数据,主要面向的场景包括标签圈人、画像分析等,.原创 2022-02-13 16:32:36 · 4431 阅读 · 0 评论 -
数仓OLAP(一)--即席查询 Kylin
1 Kylin 定义Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay Inc 开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表。Kylin 架构1)REST ServerREST Server 是一套面向应用程序开发的入口点,旨在实现针对 Kylin 平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发 cube 构建任...原创 2021-07-17 19:25:51 · 1382 阅读 · 4 评论 -
数仓(八):数据建模:如何判断一个数据模型的好坏?数据仓库的 KPI 怎么定?
一、数仓模型优化-如何判断一个数据模型的好坏1.完善度汇总数据能直接满足多少查询需求,即应用层访问汇总层数据的查询比例跨层引用率:ODS层直接被DWS/ADS/DM层引用的表,占所有ODS层表比例可以快速响应业务方的需求比较好的模型,使用方式是可以直接从该模型获取所有想要的数据的,如果DWS,ADS,DM层直接引用ODS层的表比例太大,即跨层引用率太高,则该模型不是最优,可以继续优化2.复用度模型引用系数:模型被读取并产出下游模型的平均数量3.规范度主题域归属分..原创 2021-08-09 16:05:37 · 2949 阅读 · 0 评论 -
数仓(七):全量、 增量、缓慢变化维、拉链表
一、解决增量导入由于数据修改导致数据重复问题方案一:全量更新目标表只保留最新的一份,比如我们每天用sqoop抽取最新的一份全量数据到hive全量表全量表没有分区,表中的数据是前一天的所有数据,比如说今天是24号,那么全量表里面拥有的数据是23号的所有数据,每次往全量表里面写数据都会覆盖之前的数据,所以全量表不能记录历史的数据情况,只有截止到当前最新的、全量的数据。方式:每天drop掉前一天的数据,重新抽一份最新的。 优点:节省空间,一些普通的使用也很方便,不用在选择表的时候加一个时间分原创 2019-11-13 10:25:19 · 5492 阅读 · 3 评论 -
数仓(六):数据建模之维度建模: 事实表&维度表设计
维度设计基本方法1、设计步骤:1)第一步:选择维度或新建维度。作为维度建模的核心,在企业级数据仓库中必须保证维度的唯一性。以淘宝商品维度为例,有且只允许有一个维度定义。2)第二步:确定主维表。此处的主维表一般是 ODS 表,直接与业务系统同步。以淘宝商品维度为例,s_auction_ auctions是与前台商品中心系统同步的商品表,此表即是主维表。3)第三步:确定相关维表。数据仓库是业务源系统的数据整合,不同业务系统或者同一业务系统中的表之间存在关联性。根据对业务的梳理,确定哪些表和主维原创 2021-06-21 15:49:50 · 8368 阅读 · 0 评论 -
数仓(四):数据建模:如何构建主题域/面向主题的建模
数仓使用数据库构建数仓的作用简单来说就是存储数据和读取数据。绝大部分情况下,数据是结构化的,因此存储数据使用数据库,使用SQL语言进行数据处理。多维分析多维分析是指使用数据的场景,查询时组合维度属性和指标,输出特定组合维度下的指标值。数仓的基本要求是提供多维分析能力。即对于高度聚合的数据可以快速获得结果,例如查看过去一年的去重用户数。多维分析是从使用者角度看数仓应该提供的能力,而OLAP系统是指具有多维分析能力的系统,相对立的概念是OLTP系统,提供的能力是即时查询。例如常见的.原创 2021-05-12 12:16:40 · 6009 阅读 · 0 评论 -
数仓(五):数据建模--ER模型/维度建模,概念模型/逻辑模型/ 物理模型
一、数仓建模的目标访问性能:能够快速查询所需的数据,减少数据I/O。数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。使用效率:改善用户应用体验,提高使用数据的效率。数据质量:改善数据统计口径的不一致性,减少数据计算错误的可能性,提供高质量的、一致的数据访问平台。所以,大数据的数仓建模需要通过建模的方法更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点。二、关系模式范式关系型数据库设计时,遵照一定的规范要求,目的在于降低.原创 2021-04-22 14:14:14 · 13924 阅读 · 0 评论 -
数据中台:OneData之One ID中用户体系ID-Mapping
数据中台建设方针:横向规划,各个击破。横向规划即在数据中台规划初期,需要打通企业各个业务系,打破数据孤岛现象。其实就是我们建设数据仓库的阶段。比如电信业务,我们要把客户、账务、客服、营销等业务板块打通数据,全盘考虑,融通数据形成数据资产。数据中台建设过程中涉及到大数据平台建设、数据仓库建设、模型算法、数据治理、数据服务等一系列工程,不可能一蹴而就,我们需要梳理业务场景,看他们需要什么样的服务先找一个业务场景,搭建起数据中台的服务能力,然后依次迭代,各个击破。总体规划数据集成首先.原创 2021-01-22 11:05:13 · 2354 阅读 · 0 评论 -
数仓(三):分层设计 ODS-DWD-DWS-ADS
一、数仓建模的意义,为什么要对数据仓库分层?只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。1、清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据关系条理化:源系统间存在复杂的数据关系,比如客户信息同时存在于核心系统、信贷系统、理财系统、资金系统,取数时该如何决策呢?数据仓库会对相同主题的数据进行统一建模,把复杂的数据关系梳理成条理清晰的数据模型,使用时就可避免上述问题了。2、数据血缘追...原创 2019-11-27 17:01:34 · 22906 阅读 · 4 评论 -
数据建模: 金融保险数据模型FSDM
保险基础数据模型包含十个主题主题编号 主题 说明 1 参与方( 客户、人、组织、 内部机构、外部机构) 描述保险经营管理活动中涉及的所有人或组织本身所固有的信息 2 合同(承保,保单) 描述保险经营管理活动中涉及的各类合同及合同管理的信息。 3 理赔 描述保险理赔活动中涉及的信息 4 资产(标的) 描述保险活动中涉及的有形资产或无形资产的相关信息。 5 风险评估 描述.原创 2021-06-21 21:21:23 · 5654 阅读 · 0 评论 -
数据质量管理:自定义脚本or质量监控工具Griffin
1 Griffin 概述Apache Griffin 是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度度量数据资产,从而提升数据的准确度和可信度。例如:离线任务执行完毕后检查源端和目标端的数据数量是否一致,源表的数据空值等。2 Griffin 架构原理UI创建Job1)Measure 列表2) Job 列表3) 监控仪表盘面板单击放大图片使用Griffin进行数据质量监控管理数据准备--c...原创 2021-07-16 16:24:32 · 1724 阅读 · 2 评论 -
元数据管理技术--Atlas
1 Atlas 概述ApacheAtlas 为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。1)表与表之间的血缘依赖2)字段与字段之间的血缘依赖2 Atlas 架构原理......原创 2021-07-14 15:38:41 · 4319 阅读 · 1 评论 -
数仓:数据仓库建设规范
1 概述本文档制定了XX数据仓库中数据库对象的命名规范(用户、表、视图、存储过程、函数、表分区、主键、索引、序列等)、数据库编程规范,JAVA编程规范为系统设计和开发工作提供统一的命名标准,提高系统的规整性和代码的可读性,减轻维护工作量,提高工作效率。2 数据库对象命名规范2.1 层次划分 数据层级按照自己数据仓库规划的命名即可2.2 表、视..原创 2021-01-11 09:09:39 · 1251 阅读 · 1 评论 -
数仓(二):数仓构建流程、数据中台建设
一、业务调研1、业务调研的方式- 借助产品部门提供的资料对整个项目进行了解 - 去和产品部门直接沟通调研两种方式有利有弊:1)第一种方式由于我们对他们所做的项目不是很熟悉,所了解到的也没有那么全面,对于产品部门提供的一些文档所定义的一些用语不了解; 2)第二种方式则会避免那种情况,但我们也知道,产品部门也有自己的任务,不会总有时间去给你讲解业务上的东西,所以在去找他们之前,要*明确自己的目的*,带着问题去找他们,同时要*注意自己和他们交谈的语气*,因为我们是两个衔接比较密切的...原创 2021-06-21 14:08:55 · 3859 阅读 · 0 评论 -
中台实践:数据中台建设五步法
数据中台这个东西,现在业界并没有一个完整的标准定义,数据中台至少首先是一个分布式的数据仓库,同时包含相对应实施的方法论和方案,介于分布式数据仓库和企业全面数据化中间的任意一个点都可以被定义为数据中台。可以说,数据中台是实现企业全面数据化的一个解决方案,是一套支撑企业全面数据化的架构,会成为企业开展全面数据化的基础设施。(1)中台是什么?企业级能力复用平台!(2)如何构建中台?以用户为中心,从战略入手,愿景为指引,用科学有效的方法,步步为营沉淀企业级能力...原创 2022-01-27 14:30:45 · 7041 阅读 · 0 评论 -
云原生数据中台:第7章 数据中台的架构
数据中台的功能定位数据中台的功能定位是完成公司内部数据能力的抽象、共享和复用,因此,数据中台的架构必须围绕这三个功能来设计。与传统的大数据平台不同,数据中台搭建于大数据平台及数据仓库之上,将大数据平台和数据仓库所实现的功能以通用数据能力的形式提供给企业的所有部门。因此,单从功能上来讲,大数据平台实现具体的数据能力,数据仓库是业务建模、数据治理发生的地方,而数据中台则需要把大数据平台、数据仓库的数据和接口组织起来,通过打通数据提升数据能力,通过共享提高全局使用效率。因此数据中台的架构...原创 2021-10-16 21:13:22 · 1452 阅读 · 0 评论 -
大数据平台、从数仓 到 数据中台
当前阶段数据应用到各个角落,除了之前可以支撑的决策分析以外,大数据与线上事务系统(OLTP)的联动场景非常多,比如我们在电商平台查询个人所有历史订单,再比如一些刷单、反作弊的实时拦截,以及一些实时推荐等,这些都是通过将数据的运算交给数据中台部门处理,前台部门直接通过API进行结果调用。数据中台的集中化建设也更好地支撑起创新业务,比如通过大数据+分析建立起商业化数据变现产品,进行数据售卖,把数据...原创 2020-05-06 11:31:06 · 11227 阅读 · 4 评论 -
数据资产管理
玩转数据资产遵循“微服务、大平台、轻技术、易操作”的设计理念,以大数据处理技术为支撑,以数据规划与管理咨询方法为指导,以数据聚合、治理、融合、服务为核心,致力于为用户提供有效的数据资产沉淀工具,服务数据资产管理、数据治理、数据仓库建设、数据中台落地等企业诉求,实现数据驱动业务,支撑数据价值发现。数据资产目录1. 数据有哪些、是什么、在哪里一目了然2. 企业级结构化数据、非结构化数据统一的资源目录,及数据查询与申请元数据管理1.元数据自动采集、动态感知,版本差异标记2.元数原创 2021-04-27 20:50:29 · 5814 阅读 · 0 评论 -
数仓:数据同步之道、数据接入技术栈、ETL加载策略
☞ETL同步之道 [ Sqoop、DataX、Kettle、Canal、StreamSets ] ☞ETL之技术栈 [ 重工具 vs 开发语言 ] ☞ETL加载策略 [ Merge、Delta、拉链 ]ETL工具或类ETL的数据集成同步工具或语言,企业生产中工具也非常之多,主流的etl工具有Sqoop、DataX、Canal、flume、Logstash、kettle、DataStage、Informatica、Talend等,语言有强悍的SQL、Shel...原创 2021-04-16 18:24:03 · 2006 阅读 · 0 评论 -
面试:数仓、数据架构、数据分析
技术主要结合项目聊了数仓模型的建设,SQL的高级写法。HR问了跳槽原因,现在的组织架构,就是一些调优,一些付复杂场景的应用比如开窗函数什么的这种row_number,led lag,distrubute by等等1,讲离线数仓项目背景介绍,怎么去做?主要是将分层,每层干什么,并说下主题是什么划分的2,hive优化会问mr原理,shuffle过程3,数据质量管理怎么做?从4个方面来讲:准确性,一致性,唯一性,完整性4,元数据管理做了些什么5,缓慢变化维的实现方式?6,宽表设计中影.原创 2021-05-06 15:10:18 · 877 阅读 · 0 评论