九层之台起于累土
九层之台,起于累土;千里之行,始于足下!
展开
-
《数据资产管理实践白皮书》5.0版 | 第6章 数据资产管理总结与展望
当前,数据资产管理呈现蓬勃发展的态势,为数据要素市场的发展提供强劲动力,为数字经济发展奠定良好基础。在国家规划的大力推动下,在行业政策的有效指导下,我们期待数据资产管理将稳步前进,促进数据资产价值将进一步释放原创 2022-10-29 21:38:42 · 890 阅读 · 1 评论 -
《数据资产管理实践白皮书》5.0版 | 第5章 数据资产管理发展趋势
从信息时代到数字时代,数据由记录业务逐渐转变为智能决策,成为了组织持续发展的核心引擎。未来,数据资产管理将朝着统一化、专业化、敏捷化的方向发展,提高数据资产管理效率,主动赋能业务,推动数据资产安全有序流通,持续运营数据资产,充分发挥数据资产的经济价值和社会价值原创 2022-10-29 21:34:00 · 1272 阅读 · 0 评论 -
《数据资产管理实践白皮书》5.0版 | 第4章 数据资产管理实践步骤
本章定义了一种数据资产管理实践的通用步骤:“统筹规划→管理实施→稽核检查→资产运营”。需要说明的是,各步骤之间并无严格的先后顺序,组织可结合自身情况在各阶段制定合理的实施方案原创 2022-10-29 21:21:12 · 1171 阅读 · 0 评论 -
《数据资产管理实践白皮书》5.0版 | 第3章 数据资产管理保障措施
数据资产管理是一项长期性的、体系化的工作,为保证各项数据资产管理活动有效开展,统筹推动数据资产管理工作顺利进行,战略规划、组织架构、制度体系、平台工具、长效机制等保障措施变得极为重要原创 2022-10-29 20:55:44 · 831 阅读 · 0 评论 -
《数据资产管理实践白皮书》5.0版 | 第2章 数据资产管理活动职能
活动职能是数据资产管理的基本管理单元。数据资产管理包括数据模型管理、数据标准管理、数据质量管理等 10 个活动职能,覆盖数据资源化、数据资产化两个阶段。本章参考 PDCA 方法,从计划、执行、检查、改进四个环节着手,阐述数据资产管理活动职能的核心理念与实践要点.数据模型管理、数据标准管理、数据质量管理、 主数据管理、 数据安全管理、 元数据管理、 数据开发管理、 数据资产流通 、数据价值评估 、数据资产运营原创 2022-10-23 17:42:51 · 651 阅读 · 0 评论 -
《数据资产管理实践白皮书》5.0版 | 第1章 数据资产管理概述
随着数据的重要性日益显著,数据资产管理成为激发组织数据要素活力、加速数据价值释放的关键。本章首先从数据要素市场发展与企业数字化转型的视角出发,阐述数据资产管理的重要性,其次明确数据资产管理的概念与内涵,再次对数据资产管理演进进行梳理,最后总结了当前数据资产管理的主要难点原创 2022-10-18 13:24:32 · 667 阅读 · 0 评论 -
《华为数据之道》-第1章 数据驱动的企业数字化转型
华为数据工作的目标为“清洁、透明、智慧数据,使能卓越运营和有效增长”。以传统的钢铁企业为例(如图1-1所示),完整工艺包括采矿、选矿、烧结、炼铁、炼钢、热轧、冷轧、硅钢等,辅助生产工艺包括焦化、制氧、燃气、自备电、动力等,在各个工艺流程中沉淀着大量的复杂数据。非数字原生企业在消费数据时对数据质量的要求也更高,一般会更聚焦于与业务流程相关的特定场景,更关注业务流程中问题的根因和偏差,数据挖掘、推理、人工智能都会聚焦于对业务的理解,面向业务去做定制化、精细化的算法管理,因此消费数据时的质量容错空间非常小。原创 2022-10-02 13:49:57 · 1319 阅读 · 0 评论 -
《华为数据之道》-第8章 打造“清洁数据”的质量综合管理能力
数据质量管理应成为企业持续、例行的工作,企业数据质量管理水平直接影响数据应用的效果和数字化转型的成效。华为数据质量管理框架由三个部分构成,包括自上而下打造数据质量领导力、全面推进数据质量持续改进机制、不断加强数据质量能力保障。通过制定数据质量政策,并依托公司变革体系和流程运营体系实现质量管控的落地,同时以多种方式在全公司营造质量氛围和文化。其中最重要的是建立了企业数据质量持续改进的机制,即基于质量管理的PDCA循环——数据质量策划、控制、度量和改进。最后通过组织、流程、IT三个方面的能力保障,使数据质量管理原创 2022-10-05 22:07:41 · 1112 阅读 · 0 评论 -
《华为数据之道》-第10章 未来已来:数据成为企业核心竞争力
数据成为企业的生产要素,将带来数据确权体系和数据市场基础设施建设的浪潮。大规模数据交互将构成庞大的企业数据生态,数据管理手段也将全面智能化。“物理世界”“人类认知世界”“数字世界”和“机器认知世界” 将构成全新的“智能世界”,数据将成为四个世界相互联接转换的枢纽,成为智能世界的支柱之一。数据治理将面临一系列全新的问题与挑战。 未来已来,让我们共同努力,把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。原创 2022-10-06 10:07:56 · 753 阅读 · 0 评论 -
《华为数据之道》-第9章 打造“安全合规”的数据可控共享能力
数字技术正在构建一个全新世界。在数字时代这个大风暴中,数据的安全隐私管理无异于风暴之眼,纷乱的外部因素与企业自身特定的安全威胁正在共同影响着整体安全隐私态势,既要求企业可以减轻安全威胁,避免内外安全隐私风险带来的信誉损失和经济损失,又要求企业最大化利用数据、共享数据,面向大数据和机器学习,达成业务目标,发挥数据价值。所以数据保护和数据共享作为一对矛盾体,将不断引入新的理念。国际数据空间技术、“链条控制”转向“集中管控”、构建基于元数据管理的影响小、非介入式的公司级数据安全隐私保护平台,都会在数字时代不断演进原创 2022-10-05 22:34:56 · 679 阅读 · 0 评论 -
《华为数据之道》-第7章 打造“数字孪生”的数据全量感知能力
随着非数字原生企业数字化转型项目的推进,感知能力构建的最终对象逐渐从单一节点发展到获得完整物理对象的数字孪生。考虑到物理对象的维度和可能的数据量,构建一个全量感知的企业数字孪生的成本可能会相当惊人。所以一个成功的数字化转型项目要构建的感知规模一定要面向应用,由业务价值驱动。非数字原生企业不可能构建物理对象100%的镜像数字孪生,也完全没必要这么做。每个数字孪生实际上只是对象的最有业务价值的一个或几个方面的数字模型,我们只需利用适当的技术满足特定的业务目标,优化回报,分阶段利用感知获取的数据创造价值,同时最大原创 2022-10-05 21:28:32 · 891 阅读 · 0 评论 -
《华为数据之道》-第6章 面向“自助消费”的数据服务建设
数据底座建设的目标是更好地支撑数据消费,在完成数据的汇聚、整合、联接之后,还需要在供应侧确保用户更便捷、更安全地获取数据。一方面业务人员希望尽可能快速地获取各种所需的数据,另一方面要确保数据获取过程中满足安全、合规的要求。同时,业务人员消费数据时,也希望能够有更加灵活的使用数据、分析数据的方式,业务人员希望消费数据的自主性更强,并且不能忍受过去冗长、呆板的报表呈现方式。 在数据供应侧和消费侧的双重推动下,华为公司进行了基于数据服务提供“自助消费”的实践,打造了从数据供应到消费的完整链原创 2022-10-03 17:03:02 · 502 阅读 · 0 评论 -
《华为数据之道》-第5章 面向“联接共享”的数据底座建设
企业数据治理的最终目的是让数据更有效地服务于业务目标,创造价值。对于数字原生企业而言,原生入口提供的大规模、高质量的数据,可以快速地封装成企业级的API,满足业务侧的应用。华为作为非数字原生企业,在实践探索中发现,数字化转型的关键在于打通数据供应链,通过理解业务、识别数据资产、建设数据架构来推动组织间的共享和协作,标识安全隐私标签,从源头提升数据质量,并通过数据底座建设构建数据湖和数据主题联接两层,形成数据的逻辑集合,为业务可视化、分析、决策等数据消费提供数据服务,让企业数据成为能为业务带来价值的数据资产原创 2022-10-03 14:36:18 · 636 阅读 · 0 评论 -
书单推荐|23本数字化转型好书,助企业赢在起跑线(案例书籍在最后)
什么是数字化转型呢?一千个人心中就有一千个哈姆雷特,对数字化转型的理解也是类似。数字化的关键是驱动企业从业务、架构、技术、组织等方面和系统的改造升级,在这个改造升级的过程中,会涉及数据治理、数字化转型架构的设计、数据中台的建设等方方面面。为了帮助大家更加系统地了解数字化转型的知识体系,今天为大家分享23本关于数字化转型的好书,一起来看下,并收藏起来吧!原创 2022-10-03 12:33:25 · 1865 阅读 · 0 评论 -
《华为数据之道》-第4章 面向“业务交易”的信息架构建设
华为过去的信息架构建设主要是为了实现“信息化”或“业务上ERP”,信息架构往往隐藏在系统中、隐藏在IT功能下。对于大部分业务作业人员和管理者而言,他们的关注点更多聚焦在“功能是否完善”或“业务是在系统中完成还是手工完成”上。此时,对信息架构的要求仅限于支撑好各类IT系统的落地,或在一定范围内对IT建设提供指导。 随着企业数字化转型的推进,华为公司越来越认识到信息架构的价值并不应局限于“支撑IT建设落地”,而是更好地管理企业数据资产,更好地提升整个业务交易链条的效率,甚至基于信息架构重原创 2022-10-03 12:02:00 · 613 阅读 · 0 评论 -
《华为数据之道》-第3章 差异化的企业数据分类管理框架
不同的企业或组织基于不同的目的,可以从多个角度对数据进行分类,如结构化数据和非结构化数据、内部数据和外部数据、原始数据和衍生数据、明细数据和汇总数据等。华为在业界的数据分类基础上,结合自身多年的实践,已形成完整的数据分类管理框架。华为对数据进行分类的目的,是为了针对不同特性的数据采取不同的管理策略,以期实现最大的投入产出比。原创 2022-10-02 21:00:52 · 850 阅读 · 0 评论 -
《华为数据之道》-第2章 建立企业级数据综合治理体系
同时,在管理IT流程的设计规范中,明确界面的字段要遵从数据标准的定义,数据库表和字段的设计要承接信息架构的设计要求,从而达到数据治理融入IT实施流程的目标。支撑数据解决方案的角色为数据经理,数据经理统筹管理信息架构工程师、数据治理工程师、数据分析师和数据科学家,共同完成项目数据解决方案的交付和验证。数据治理政策是华为数据治理的顶层设计,该政策在华为公司EMT(经营管理团队)汇报通过后,由总裁签发,该政策明确了数据工作在华为公司治理体系中的地位,体现了公司管理层对数据工作重要性的统一认知。原创 2022-10-02 14:13:11 · 585 阅读 · 0 评论 -
【数仓】最强最全面的数仓建设规范指南
本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等!转载 2022-08-07 11:05:03 · 462 阅读 · 0 评论 -
【ETL】常见的ETL工具(含开源及付费)一览和优劣势分析?
支持的数据输入输出的类型:Mysql、Oracle、MSSQL Server、PostgreSQL、DB2、Kafka、Greenplum、Redis、TiDB、SequeoiaDB、Amazon Redshift、HashData、HDFS、FTP、Hive、Inceptor等。(6)Amazon Glue Jobs system提供用于为您的数据定义、安排和运行 ETL 操作的托管基础设施,您可以在 Amazon Glue 中创建作业,用于自动处理您用于提取、转换数据并将数据传输到不同位置的脚本。...原创 2022-08-05 09:53:34 · 4830 阅读 · 0 评论 -
【元数据】饿了么元数据管理实践之路
Hook执行中采集数据(比如HiveHook),发送Kafka,消费Kafka数据,生成Relation关系保存图数据库Titan,并提供REST接口查询功能,支持表血缘,列级支持不完善。静态的Hive MetaStore表,比如DBS、TBLS、SDS、COLUMNS_V2、TABLE_PARAMS、PARTITIONS,保存表、字段、分区、Owner等基础信息,便于表、字段的信息检索功能。调度系统执行任务,并将任务相关的信息,比如appId、jobId、owner、SQL等信息存入DB。...转载 2022-08-05 09:43:29 · 439 阅读 · 0 评论 -
【Datahub】一站式元数据管理平台:Datahub宝典
首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话题。不管国家层面,还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量,数据管理,数据资产,数据安全等等。而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察。DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具。...原创 2022-08-05 09:36:42 · 712 阅读 · 0 评论 -
【SQLFlow】使用Grabit自定义SQL收集metadata
Grabit 是 马哈鱼数据血缘分析器 的一个支持工具,它从各种数据源中收集SQL脚本,然后将它们上传到马哈鱼,以便对这些SQL脚本进行数据血缘分析,分析结果可以在马哈鱼中查看。同时,数据血缘结果将被提取到本地目录中。Grabit目前支持和两种方式操作,本文主要介绍Grabit如何使用从数据库中获取DDL。Grabit中维护了从指定数据库获取DDL的SQL脚本,在 SQL conf 下载这些SQL。conf目录中是Grabit获取各个数据库的DDL所执行的SQL, 通过执行这些SQL获取表,视图,存储过程转载 2022-07-22 10:59:14 · 186 阅读 · 0 评论 -
【SQLFlow】马哈鱼数据血缘分析器中的子查询语句分析
where子句之前的子查询,它的中间结果集会参与它外层查询的结果集的形成,中间结果集在马哈鱼分析界面上和表或视图地位一致;where子句之后的子查询,它的结果集仅参与外层查询返回数据的筛选限制,本身不会对外层查询结果集的结构产生影响,马哈鱼将它的中间结果集和外层结果集并列展示。......转载 2022-07-22 10:59:22 · 137 阅读 · 0 评论 -
【SQLFlow】马哈鱼数据血缘分析器分析集合运算
集合运算组合两个或多个部分查询的结果到一个结果中,包含集合运算的查询又称为复合查询。这种复合查询中虽然包含上述四种运算,但是他们的实现逻辑完全一致。所以,在马哈鱼数据血缘分析器中的分析也是完全一致的,需要注意的是,一是对于SQL语句中有常量时,会被马哈鱼独立显示;二是马哈鱼没有对是否distinct的运算进行额外说明,需要使用者自己去区别。......转载 2022-07-22 10:59:30 · 191 阅读 · 0 评论 -
【SQLFlow 】利用元数据提高 SQLFlow 血缘分析结果准确率
上述语句是一个3表(customer_total_return,store,customer)关联的简单语句,它的运算结果是返回复合条件的c_customer_id列集合。由于第一张表customer_total_return所使用/返回的列均在SQL语句中显示指定,所以这里不需要额外提供它的定义信息,只需要提供其他两张表的定义,如果您的语句中存在所有表均有上述情况,则需要将所有表的定义提供给SQLFlow供分析。那我们应该如何解决’孤儿列’的问题呢?如果您是SQLFlow的新用户,您可能会有我的。....转载 2022-07-22 10:59:40 · 376 阅读 · 0 评论 -
【SQLFlow】马哈鱼分析数据库中metadata的血缘关系
是一个分析数据血缘关系的在线平台,用他可以获取指定数据库的metadata,通过获取的DDL分析其中,视图等所依赖的各种数据源表。本文介绍利用马哈鱼从SQLServer中获取DDL,分析出其中存储过程的血缘关系。......转载 2022-07-22 10:59:45 · 276 阅读 · 0 评论 -
【SQLFlow】使用GSP动态修改SQL语句
最近发现一款功能非常强大的解析的引擎,GSP(全称GeneralSQLParser)。这是一款专业的SQL引擎,适用于市面上流行的各种数据库,同时他也支持了对SQL的分析。这是他的官网https我们可以使用他对SQL的语法解析,格式化,提取关键字属性,获取数据库metadata等,下面用一些case来介绍下GSP的其中一个功能。......转载 2022-07-22 10:59:53 · 352 阅读 · 0 评论 -
【SQLFlow】马哈鱼数据血缘分析器分析SQL的case-when语句中字段依赖关系
是一个分析数据血缘关系的平台,可以在线直接递交SQL语句进行分析,也可以选择连接指定数据库获取metadata、从本地上传文件目录、或从指定git仓库获取脚本进行分析。本文介绍如果利用马哈鱼来分析SQL的case-when语句中字段依赖关系。......转载 2022-07-22 11:00:01 · 276 阅读 · 0 评论 -
【SQLFlow】数据治理中Oracle SQL和存储过程的数据血缘分析
中的一个重要基础工作是分析组织中数据的血缘关系。有了完整的数据血缘关系,我们可以用它进行数据溯源、表和字段变更的影响分析、数据合规性的证明、数据质量的检查等。分析数据血缘的方法主要分为四类自动解析主要是利用工具解析SQL语句、和ETL等文件。本文以Oracle为例,来说明如何分析SQL和存储过程中的数据血缘。......转载 2022-07-22 11:00:05 · 884 阅读 · 0 评论 -
【SQLFlow】如何白嫖注册马哈鱼血缘分析器
如下图,从account中,能准确的获取当前用户的唯一码、账户类型、到期日等重要信息,teamoverview可以获取当前用户所属组。所以,首次接触马哈鱼,无论你是初学者或者是专业的数据分析师,都需要先进行马哈鱼用户注册,才能进行下一步学习或工作活动。访客只能进行用户注册、查看用户隐私政策以及向马哈鱼官方反馈意见或建议,其他功能不可使用。马哈鱼血缘分析器有三类账户,分别为普通用户账户、高级用户账户和团队用户账户。1、从哪里可以登录马哈鱼血缘分析器?2、成为马哈鱼新用户,需要哪些资料?......转载 2022-07-22 11:00:13 · 871 阅读 · 0 评论 -
【SQLFlow】马哈鱼利用密钥对连接Snowflake并分析数据血缘
Grabit是的一款支持工具,作用是从各种数据源收集SQL数据,然后将它们上传到马哈鱼,以便马哈鱼对这些数据进行分析获取血缘关系。Azure,Greeplum,Hive,MySQL,Netezza,Oracle,Postgresql,Redshift,Snowflake,SQLServer,Teradata以上所有的数据库都是通过账号密码进行连接认证,只有Snowflake除了可以使用账号密码认证外,还支持使用对进行身份认证。并且,连接到SnowflakeSnowflake。......转载 2022-07-22 11:00:20 · 310 阅读 · 0 评论 -
【SQLFlow】马哈鱼—利用元数据提高数据血缘分析的准确性
治理分析师常常需要对各种复杂场景下的SQL语句进行溯源分析,而限于环境因素,往往只能提供SQL语句给马哈鱼进行分析处理,SQL语句的制造者往往为了简便行事,会产生一些数据库可执行但马哈鱼无法正确识别的一类语句,本文聚焦此处,为各位专家介绍马哈鱼官方对这类问题的解决方案。由于第一张表customer_total_return所使用/返回的列均在SQL语句中显示指定,所以这里不需要额外提供它的定义信息,只需要提供其他两张表的定义,如果您的语句中存在所有表均有上述情况,则需要将所有表的定义提供给马哈鱼供分析。..转载 2022-07-20 11:46:45 · 327 阅读 · 0 评论 -
【SQLFlow】马哈鱼数据血缘关系分析工具处理CSV文件中的SQL
作为一个分析数据血缘关系工具,通过对收集的SQL脚本或者其他格式包含SQL的文件分析得到datalineage。对于文件格式,目前支持SQL脚本,包含metadata的JSON文件,特定格式的CSV文件以及的python脚本文件,本文主要介绍马哈鱼对于CSV文件的分析。...转载 2022-07-20 11:45:29 · 360 阅读 · 0 评论 -
【SQLFlow】马哈鱼数据血缘分析工具注册教程
技术的发展与普及,数据治理和数据质量变得越来越重要,数据血缘分析在业界悄然兴起并得到了广泛流行,今天推荐一款专业且易用的数据血缘分析工具–马哈鱼。万丈高楼平地起,今天我们从马哈鱼新用户申请开始,在后续的技术分享中,我将带大家系统深入了解马哈鱼的操作,希望在未来的工作中,它能成为你的得力助手。让你先成为一个SQLFlow用户,在接下来的文章中,我们会为你逐步揭开SQLFlow神秘的面纱,让它成为你在数据溯源工作中不可或缺的工具!,因此用户需要把这个邮箱加入到注册邮箱的白名单,确保能够收到激活邮件。...转载 2022-07-20 11:44:28 · 734 阅读 · 0 评论 -
【SQLFlow】使用SQLFlow从数据库中拉取数据分析
SQLFlow是一款很强大的SQL脚本沿袭关系分析工具,除了分析指定SQL脚本文件的功能外,还有可以连接指定数据库获取数据分析沿袭关系。SQLFlowhttpshttpshttpshttps。转载 2022-07-20 11:43:32 · 305 阅读 · 0 评论 -
【SQLFlow】SQLFlow分析mysql语句
以上就是使用SQLFlow对mysql的SQL继续分析得到表,以及字段间的数据血缘关系datalineage的案例。https。转载 2022-07-20 11:42:35 · 321 阅读 · 0 评论 -
【SQLFLow】使用SQLFLow的RESTFul接口
通过SQLFlow提供的一系列restful接口可以在我们的程序中操作获取到我们想要分析的SQL脚本的分析结果。SQLFlow。转载 2022-07-20 11:40:45 · 462 阅读 · 0 评论 -
【SQLFlow】SQLFlow工具的使用
SQLFlow是一款很强大的SQL脚本沿袭关系分析工具,除了分析指定SQL脚本文件的功能外,还有一些其他的强大功能,供我们进行灵活的分析数据,后续会再进行分享。SQLFlowhttpshttpshttpshttps。转载 2022-07-20 11:38:17 · 936 阅读 · 0 评论 -
【SQLFlow】发现了一款很好用的分析SQL脚本数据流关系的工具SQLFlow
SQLFlow是一款专门分析SQL脚本数据流关系的工具,可通过在受控数据环境中(就是指定数据库的连接参数,连接到数据库,分析特定数据库的SQL,目前支持大部分主流数据库)分析SQL脚本来收集数据沿袭信息(数据流)。...转载 2022-07-20 11:36:48 · 1122 阅读 · 0 评论 -
【数仓】数据倾斜识别
我们在写sql的时候经常发现读取数据不多,但是代码运行时间异常长的情况,这通常是发生了数据倾斜现象。数据倾斜现象本质上是因为数据中的key分布不均匀,大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,从而拉慢了整个计算过程速度。本文将介绍如何通过日志分析,判断数据中的哪个key分布不均,从而导致了数据倾斜问题。...转载 2022-07-19 10:32:57 · 491 阅读 · 0 评论