数据采集和预处理
-
数据采集:数据收集,是指根据用户需要收集相关数据的过程。采集的数据类型包括结构化数据、半结构化数据、非结构化数据。
(1)结构化数据是以关系型数据库表管理的数据;
(2)半结构化数据是指非关系模型的、有基本固定结构模式的数据;
(3)非结构化数据是指没有固定模式的数据。 -
一般而言,需要进行预处理的数据主要包括数据缺失、数据异常、数据不一致、数据重复、数据格式不符等情况,针对不同问题需要采用不同的数据处理方法。
-
数据采集的方法:传感器采集、系统日志采集、网络采集和其他数据采集等。
-
数据预处理3个步骤:数据分析→数据检测→数据修正。
(1)数据分析:是指从数据中发现控制数据的一般规则,比如字段域、业务规则等。
(2)数据检测:是指根据预定义的清理规则及相关数据清理算法,检测数据是否正确,比如是否满足字段域、业务规则等,或检测记录是否重复。
(3)数据修正:是指手工或自动地修正检测到的错误数据或重复的记录等。
数据存储及管理
- 从技术上看,衡量容灾系统有两个主要指标,即RPO(恢复点目标)和RTO(恢复时间目标),其中RPO代表了当灾难发生时允许丢失的数据量,而RTO则代表了系统恢复的时间。
RT(Recovery Time Objective)和 RPO(Recovery Point Objective)是数据库和灾难恢复规划中的两个重要概念:
-
RT (Recovery Time Objective) - 恢复时间目标:
- RT 是指在发生故障或灾难后,从系统停机到恢复正常运行所需的最大时间。也就是说,这是允许的最大停机时间。RT 的目标是确保系统在一定时间内恢复,以尽量减少业务中断对组织的影响。
- 例如,如果 RT 为 4 小时,那么系统在发生故障后必须在 4 小时内恢复正常运行。
-
RPO (Recovery Point Objective) - 恢复点目标:
- RPO 是指在发生故障或灾难后,可以接受的数据丢失的最大时间段。也就是说,这是在灾难恢复过程中,允许的数据丢失的最大时间间隔。RPO 的目标是确保在恢复过程中丢失的数据量在可接受范围内。
- 例如,如果 RPO 为 1 小时,那么在故障发生前的最后一小时内产生的数据可能会丢失,但丢失的时间段不能超过这一个小时。
-
数据存储:文件存储、块存储、对象存储。
(1)文件存储:文件级或基于文件的存储,是一种用于组织和存储数据的分层存储方法。
(2)块存储:有时也称为块级存储,是一种用于将数据存储成块的技术。
(3)对象存储:基于对象的存储,是一种用于处理大量非结构化数据的数据存储架构。 -
数据缺失:产生的原因主要分为环境原因和人为原因,需要针对不同的原因采取不同的数据预处理方法,常见的方法有删除缺失值、均值填补法、热卡填补法等。
数据异常:对于异常数据或有噪声的数据,如超过明确取值范围的数据、离群点数据,可以采用分箱法和回归法来进行处理。 -
存储管理:资源调度管理、存储资源管理、负载均衡管理、安全管理。
-
备份策略:完全备份、差分备份、增量备份。
(1)完全备份:每次都对需要进行备份的数据进行全备份。
(2)差分备份:每次所备份的数据只是相对上一次完全备份之后发生变化的数据。
(3)增量备份:每次所备份的数据只是相对于上一次备份后改变的数据。
数据治理和建模
-
确定数据质量评价的第三方组织 不属于常见的数据质量评价过程。
-
数据模型:是指现实世界数据特征的抽象,用于描述一组数据的概念和定义,是用来将数据需求从业务传递到需求分析,以及从分析师、建模师和架构师传递到数据库设计人员和开发人员的主要媒介。
根据模型应用的目的不同,可以将数据模型划分为3类:概念模型、逻辑模型、物理模型。 -
关系的完整性约束包括三大类型:实体完整性、参照完整性、用户定义的完整性。
-
数据建模过程:数据需求分析、概念模型设计、逻辑模型设计、物理模型设计。
-
数据质量:指在特定的业务环境下,数据满足业务运行、管理与决策的程度,是保证数据应用效果的基础。
(1)数据质量描述:数据质量可以通过数据质量元素来描述,数据质量元素分为数据质量定量元素和数据质量非定量元素。(2)数据质量评价过程:是产生和报告数据质量结果的一系列步骤。
(3)数据质量评价方法:是通过应用一个或多个数据质量评价方法来完成的。分为直接评价法和间接评价法。直接评价法通过将数据与内部或外部的参照信息进行对比来确定数据质量,间接评价法利用数据相关信息推断或评估数据质量。
(4)数据质量控制:分成前期控制和后期控制两大部分。前期控制包括 数据录入前的质量控制、数据录入过程中的实时质量控制;后期控制为 数据录入完成后的后处理质量控制与评价。
数据仓库和数据资产
- 前端工具:主要包括各种查询工具、报表工具、分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。
- 主题库建设可采用多层级体系结构:数据源层、构件层、主题库层。
- 数据资源目录的概念模型由数据资源目录、信息项、数据资源库、标准规范等要素构成。
- 数据资源库:是存储各类数据资源的物理数据库,常分为专题数据资源库、主题数据资源库、基础数据资源库。
- 数据仓库通常由数据源、数据的存储与管理、OLAP服务器、前端工具等组件构成。
数据分析及应用
-
关于数据集成定义的描述较为准确的是 将驻留在不同数据源中的数据进行整合。
-
数据集成的常用方法:模式集成、复制集成、混合集成。
-
Web Services三要素:WSDL、SOAP、UDDI。
-
数据网格的透明性:
(1)分布透明性:用户感觉不到数据是分布在不同的地方的;
(2)异构透明性:用户感觉不到数据的异构性,感觉不到数据存储方式的不同、数据格式的不同、数据管理系统的不同等;(3)数据位置透明性:用户不用知道数据源的具体位置,也没有必要了解数据源的具体位置;
(4)数据访问方式透明性:不同系统的数据访问方式不同,但访问结果相同。 -
数据挖掘流程一般包括:确定分析对象、数据准备、数据挖掘、结果评估与结果应用5个阶段。为完成这些阶段的任务,需要不同专业人员参与其中,专业人员主要包括业务分析人员、数据挖掘人员、数据管理人员。
数据脱敏和分类分级
- 为了更加有效地管理敏感数据,通常会对敏感数据的敏感程度进行划分,以下属于常见程度划分 L1(公开)、L2(保密)、L3(机密)、L4(绝密)、L5(私密)
- 数据分级基本框架分为:一般数据、重要数据、核心数据。
- 数据脱敏原则:算法不可逆原则、保持数据特征原则、保留引用完整性原则、规避融合风险原则、脱敏过程自动化原则和脱敏结果可重复原则等。