自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 DAMA CDGP论述题和设计题分析:数据治理

此前已探讨数据质量相关论述题,当数据出现质量问题时,数据治理的重要性便凸显出来。数据质量与数据治理紧密相连、相辅相成。数据治理是提升数据质量的核心手段,通过建立制度、流程和组织架构,规范数据全生命周期管理,从源头预防质量问题;数据质量则是数据治理的关键目标和成效体现,其优劣直接反映治理措施的有效性。

2025-05-10 10:23:28 558

原创 DAMA CDGP论述题和设计题分析:数据质量(二)

数据管理通过规范流程、制定标准保障数据质量,数据质量则是数据管理成效的直观体现,二者相互依存、协同发展。推动高质量数据集建设,可提升人工智能模型训练精度与泛化能力,增强算法可靠性,为智能决策提供坚实数据支撑。

2025-04-18 17:08:40 358

原创 DAMA CDGP论述题和设计题分析:数据质量(一)

CDGP考试中,论述题和设计题共计60分,占总分比例较大。认真备考这些题型对通过考试极为重要。同时,多选题占30分,准备论述题的过程也能提升多选题成绩,因为答案大多来源于教材。从DAMA官方消息来看,自今年6月份的认证考试起,将全面启用DMBOK2的修订版教材,考试内容也会相应调整。尽管我目前提供的答案均基于当前版本的教材,但它们对于指导未来的考试仍具有一定的参考价值。考试的核心理念不会因教材版本的变化而大幅改变。因此,考生可以结合新版教材的内容,对原有回答进行适当替换和调整。

2025-04-14 09:00:00 822

原创 DMBOK2 重点章节分析(十一):数据管理成熟度评估

第十五章主要讲述了数据管理成熟度评估。该章节详细介绍了数据管理成熟度评估的框架、方法和步骤,包括评估的目的、原则、标准以及不同成熟度级别的特征和评估要点。通过数据管理成熟度评估,组织可以全面了解自身数据管理活动的现状,识别存在的问题和改进的机会,进而制定针对性的改进计划,提升数据管理能力和水平。

2025-01-20 09:00:00 953

原创 DMBOK2 重点章节分析(十):大数据和数据科学

第十四章主要讲述了大数据与数据科学的相关内容。该章节首先定义了大数据与数据科学,并强调了其业务驱动力和目标。接着,它详细探讨了大数据的6V特性(数据量大、更新快、类型多样、粘度大、波动性大、准确性低),以及数据湖和基于服务的架构等概念。此外,该章节还介绍了数据科学的过程、机器学习算法的应用,以及大数据和数据科学在组织中的实施指南和治理方法。

2025-01-12 21:17:34 563

原创 DMBOK2 重点章节分析(九):数据质量

DMBOK2第十三章主要讲述了数据质量相关的内容。这一章首先对高质量数据需求的必要性进行强调,认为高质量数据是发挥数据价值的必要前提。接着对数据质量管理的常见驱动因素和原则进行总结,并对数据管理中的重要概念进行解释,如数据质量、数据质量核心维度、数据质量管理流程等。然后,对数据质量管理活动的流程进行分步分析,并对其中用到的方法和工具进行总结。最后,对整个活动的实施评估和企业组织的数据文化变革进行阐述。

2025-01-01 14:00:13 733

原创 DMBOK2 重点章节分析(八):元数据管理

DMBOK2第十二章主要讲述了元数据管理的相关内容。该章节详细阐述了元数据的作用、目的、业务驱动因素,以及元数据的相关概念、分类、来源和架构等基础知识。同时,它还深入探讨了元数据管理的活动实践,包括所需工具、方法,并总结了管理活动的实施指南,提出了元数据治理的方法和评价度量指标。

2024-12-28 18:21:08 1068

原创 DMBOK2 重点章节分析(七):数据仓库和商务智能

DMBOK2第十一章主要阐述了数据仓库和商务智能的内容。该章节详细介绍了数据仓库的概念、架构、设计以及实施等方面的知识,同时探讨了商务智能的定义、作用以及如何利用数据仓库进行商务智能分析。此外,该章节还涉及数据仓库与商务智能在现代企业中的应用场景和重要性,为读者提供了全面而深入的理解。

2024-12-04 21:02:54 782

原创 DMBOK2 重点章节分析(六):参考数据和主数据

DMBOK2第十章主要讲述了参考数据与主数据的相关知识。这一章详细解释了参考数据和主数据的定义、目标、原则、好处以及它们之间的异同点。主数据管理强调对主数据的值和标识符进行控制,以确保跨系统使用的一致性和准确性;而参考数据管理则关注对定义的域值及其定义的控制。此外,该章节还探讨了主数据和参考数据的管理活动、工具、度量指标等基本概念,以及它们在组织中的重要性和应用场景。

2024-12-03 14:17:47 740

原创 DMBOK2 重点章节分析(五):数据安全

DMBOK2第七章主要讲述了数据安全的相关内容。这一章首先介绍了数据安全的业务驱动因素、目标和原则,然后详细阐述了数据安全的各项活动,如制定数据安全制度、定义数据安全细则、评估当前安全风险以及实施控制和规程等。此外,该章还提到了数据安全所需的工具和方法,如杀毒软件、身份管理技术、防火墙以及数据脱敏/加密等,为读者提供了全面的数据安全知识框架和实践指导。

2024-11-18 15:35:11 696

原创 DMBOK2 重点章节分析(四):数据建模和设计

第五章详细描述了数据模型的用途、基本概念、目标和原则等,并通过教育相关的数据案例来说明各种数据建模方法及其差异。数据建模被视为发现、分析和确定数据需求的过程,是数据管理的重要组成部分。它涉及关系模式、多维模式等多种数据表示模式,并强调数据模型在提供数据通用词汇表、记录数据详细信息、作为项目沟通工具等方面的重要作用。

2024-11-09 11:23:08 528

原创 DMBOK2 重点章节分析(三):数据架构

第四章详细解释了数据架构的概念、业务驱动因素、类型和设计实施,以及架构治理等内容。它强调了数据架构在业务战略和技术实现之间建立桥梁的重要性,并介绍了如何利用数据架构来定义数据需求、指导数据整合、管控数据资产等。此外,该章还讨论了企业数据模型、数据流设计以及数据架构师的工作等关键方面。

2024-10-30 19:12:30 789

原创 DMBOK2 重点章节分析(二):数据治理

本章首先介绍了数据治理的定义,它是对数据资产管理行使权力和控制的活动集合。阐述了数据治理的目标,如提升数据质量、保障数据安全合规等。接着讲解了数据治理的关键要素,包括治理主体(如数据治理委员会等)和治理活动。还提到数据治理的范围涉及数据全生命周期。并且介绍了数据治理和数据管理其他领域的关系,强调它在整个数据管理体系中的核心地位,为组织有效利用数据资产提供规则和监督机制。

2024-10-25 17:38:49 851

原创 DMBOK2 重点章节分析(一):数据管理

第一章主要对数据管理进行了概述。强调数据作为重要资产,数据管理旨在提升其价值。介绍了数据管理的目标,包括满足信息需求、确保数据质量与安全等。阐述了数据管理的原则,如领导负责、关注关键数据等。还提到元数据的重要性及数据管理需多种技能。总之,该章为读者建立了数据管理的基本概念,为后续深入学习数据管理知识体系奠定基础。

2024-10-19 10:37:33 1037

原创 使用DistCp,两个集群之间的数据拷贝

需求:两个集群A和B,把集群A的aa.src_table表的数据,拷贝到B集群的bb.obj_table里面。B集群的HDFS地址,是确定的。A集群地址采用动态方式获取步骤:1、SQL中动态获取aa.src_table表的HDFS位置,srcTableInfo=`beeline -u ${JDBC} -e "DESCRIBE EXTENDED aa.src_table"`其中${JDBC}是访问Hive集群的链接2、利用egrep和sed srcLocation=`echo ${srcTable

2021-10-11 15:37:26 1067

原创 hive sql动态拆解时分秒

从上游爬取的时间字段responseDuration,有三种显示,例如:2小时37分55秒,或者37分55秒,再或者55秒字段的值是动态的,时分秒,分秒,或者秒,要把这个字段的值拆解,然后换算成秒思路:考虑使用正则表达式替换函数regexp_replace,把时分秒,先替换成' ', 然后split(间隔符是' ')拆成数组,然后小时的数乘以3600,分钟的数乘以60步骤:1、先替换小时和分,小时和分有可能有,也有可能没有: regexp_replace(responseDuration,'

2021-09-30 11:23:48 1328

原创 load data inpath的实践

有个需求,需要在hive表里面追加数据,数据是历史数据,是业务方给的一个csv文件,思路,考虑使用load data inpath,把历史数据导入到hive表里面步骤:1、利用已经搭建好的大数据平台,把csv文件上传到HDFS, 我是直接利用大数据平台提供的页面上传功能,如果没有这个条件的,可以使用命令行:hadoop fs -put xxx.csv /export, 指定一个目录,目录名为export2、创建一个表,表里面的字段名称和字段顺序,跟csv文件保持一致,例如这个表名叫 inf

2021-09-29 16:03:22 4943

原创 hive sql时间函数的实践

有个SQL定时任务,每个月1号,查询上个月1号到上个月最后一天的数据,需要在SQL里面确定时间范围,hive数据表里面的时间格式是yyyyMMdd这个问题,涉及几个时间函数的综合应用,关键点是:时间范围要小于等于上个月最后一天,同时大于等于上个月第一天上个月最后一天:当前时间是当月第一天:trunc(CURRENT_TIMESTAMP,'MM'), trunc(sysdate, 'mm'),返回当月第一天当月第一天的前一天,也就是上个月的最后一天:date_sub(trunc(CURRE

2021-09-28 14:00:50 860

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除