信息系统项目管理师——第5章信息系统工程(二)

近几期的考情来看,本章选择题稳定考4分,考案例的可能性有,需要重点学习。本章节专业知识点特别多。但是,只考课本原话,大家一定要把本章至少通读一遍,还要多刷题,巩固重点知识。

2数据工程
2.1数据建模
您提供的信息是对数据模型分类及其各自特性的简要概述,下面是对您所列举的各部分的详细解读:

1. 数据模型

数据模型是用于描述数据、数据间关系以及对数据操作规则的一种抽象框架。它是数据库设计的基础,为信息系统提供了一种结构化的数据组织方式。数据模型按照不同的抽象层次和关注点,通常被划分为以下三类:

1.1 概念模型

概念模型,又称信息模型,是从用户角度出发,对现实世界中的数据和信息进行抽象和建模。它旨在捕捉业务需求的核心概念、实体及其相互关系,而不涉及任何特定的计算机系统或数据库管理系统(DBMS)。概念模型的特点包括:

用户视角:它关注业务用户关心的实体(如客户、订单、产品等)、属性(如客户姓名、订单金额、产品型号等)以及实体间的关系(如客户订购订单、订单包含产品等),而非技术实现细节。
抽象性:模型以高度抽象的方式表示数据和信息结构,忽略具体的存储机制、查询语言和数据访问方式,使得非技术人员也能理解。
与技术无关:概念模型不受特定数据库管理系统(DBMS)或计算机系统的约束,适用于多种可能的实现环境。
常见的概念模型表示方法包括实体-关系图(ER图),它使用图形符号(如矩形代表实体、椭圆代表属性、菱形代表关系)来直观地展示实体、属性及其关联。

1.2 逻辑模型

逻辑模型是在概念模型的基础上进一步细化和规范化,形成一种与特定数据库管理系统(DBMS)相关但与具体硬件和操作系统无关的数据结构描述。逻辑模型明确了数据如何在逻辑层面组织、存储和管理,为数据库设计提供了具体的结构蓝图。主要的逻辑数据模型包括:

层次模型
网状模型
关系模型
面向对象模型
对象关系模型
其中,关系模型由于其简洁的理论基础、强大的表达能力和广泛的支持,已成为目前最广泛应用的逻辑数据模型。关系模型使用二维表格结构(即关系表)来表示数据,通过键(如主键、外键)来维护数据的一致性和完整性,并使用标准的结构化查询语言(SQL)进行数据操作。

1.3 物理模型

物理模型是在逻辑模型的指导下,结合具体数据库管理系统(DBMS)、操作系统和硬件环境,设计出数据在实际存储介质上的组织方式和存取方法。物理模型关注的细节包括:

数据存储结构:如数据如何在磁盘上分布、如何分块存储等。
物理数据类型:如字符长度、浮点数精度、日期时间格式等。
索引策略:选择合适的索引类型(如B树、哈希等)和索引字段,优化查询性能。
分区方案:根据数据规模和访问模式划分数据,提高存储效率和并发处理能力。
并发控制和恢复机制:确保在多用户环境下数据的一致性和事务的可靠性。
物理模型设计的目标是充分利用硬件资源,确保数据的高效存储和访问,同时考虑到备份、恢复、容灾等方面的考虑。虽然物理模型的许多细节通常由DBMS自动处理或提供默认配置,但设计者仍需根据应用特点和性能要求做出有针对性的选择和调整。

2.数据建模过程
数据建模过程包括数据需求分析、概念模型设计、逻辑模型设计和物理模型设计等过程。


2.2 数据标准化♥♥♥♥♥


1. 元数据标准化

1.1 元数据定义

元数据,正如您所述,是指关于数据的数据,即对信息资源或数据的一种结构化描述。它包含了关于数据本身、数据来源、数据创建过程、数据内容特征、数据关系、数据使用权限、数据更新历史等多方面的信息。元数据旨在提供必要的上下文和背景知识,使得数据能够被有效地发现、理解、管理和利用。

1.2 元数据描述的对象

元数据所描述的对象范围广泛,涵盖了各种不同类型的信息资源:

单一资源:包括全文文本、目录、图像、数值型数据、音频文件、视频文件等各类数字化或非数字化的单个信息单元。
资源集合:由多个单一资源组成的集合,如电子图书、期刊合辑、图片库、音视频专辑、数据库中的数据表集合等。
过程与参数:不仅描述资源本身,还包括资源的生产、加工、使用、管理、技术处理、保存等整个生命周期过程,以及过程中产生的各种参数(如数据采集设备参数、处理算法参数、存储条件等)。
元数据通过标准化的方式,确保对这些对象的描述具备一致性、规范性和互操作性,使得不同系统、平台和用户之间能够共享和理解这些资源的相关信息。

1.3 元数据体系

元数据体系是一个多层次、结构化且开放的框架,它根据信息对象的生命周期、描述内容和作用的不同,将元数据划分为多种类型:

资源内容描述元数据:这是最基本的一类元数据,直接关注信息资源的内容特征,如标题、作者、出版日期、摘要、关键词、主题分类、版权信息等,用于描述资源的基本身份和内容概要。
技术元数据:涉及资源的格式、大小、分辨率、编码标准、压缩方式等技术属性,以及与资源呈现和访问相关的元数据,如URL、访问权限、存储位置等。
结构元数据:对于复杂资源(如多章节文档、数据库表结构、GIS数据等),描述其内部结构、组成部分之间的关系、导航路径等信息。
管理元数据:记录资源的生命周期状态(如创建、修改、审核、发布、废弃等)、版本信息、存储路径、备份策略、访问统计等管理层面的细节。
权益元数据:涉及版权、使用权、许可协议、权利声明等与知识产权相关的法律信息。
上下文元数据:描述资源的来源背景、引用关系、关联资源、引用计数等,反映资源在网络环境中的引用与被引用情况。
元元数据(或称为元数据架构):指导和规范其他元数据的创建、管理和使用的元数据,包括元数据元素的定义、数据类型、值域、编码规则、关联关系等。
这些不同类型的元数据相互关联、互为补充,共同构成了一个完整的元数据体系。标准化的元数据体系不仅有利于信息资源的有效组织、检索、长期保存和互操作,还有助于实现数据治理、数据质量控制、数据资产管理等更高层次的数据管理目标。

2. 数据元标准化

在开放系统互连环境(OSIE)中,硬件、软件、通信与数据构成了四大核心要素。其中,数据作为关键一环,其有效组织与标准化对于确保系统间的互联互通至关重要。数据元,作为数据库、文件和数据交换的基本组成单元,扮演着核心角色。

数据元定义与组成

数据元是构成数据库记录或文件元组的基本元素。在数据库或文件内部,记录或元组由若干个数据元构成;而在数据交换场景中,数据元作为基本传输单元,支撑着不同系统间的数据交互。每个数据元由一组属性精确描述,这些属性包括其定义(即含义和用途)、标识(唯一标识符)、表示(数据格式、数据类型、度量单位等)以及允许值(有效值范围或取值列表)。数据元在特定的语义环境中被视为不可再细分的最小数据单元。

数据元的结构通常由三个部分组成:

对象:数据元所代表的实际业务对象或概念,如“员工姓名”、“商品价格”等。
特性:描述数据元的特性和属性,如数据元的定义、数据类型、长度限制、精度要求等。
表示:数据元的具体表现形式,包括其在计算机系统中的编码方式、存储格式以及在数据交换中使用的标准格式。
数据元标准化与提取方法

数据元标准化是确保数据科学性、一致性与互操作性的关键步骤,其中数据元提取是标准化过程中的重要环节。为了获取科学且具备互操作性的数据元,需要采用合理的提取方法。常见的数据元提取方法主要有两种:

自上而下提取法:这种方法通常从顶层业务需求或领域知识出发,通过分析业务流程、识别关键业务概念,进而定义相应的数据元。这种方法适用于新建系统或进行系统重构时,尤其当业务逻辑清晰、需求明确的情况下,能够确保数据元设计与业务需求紧密贴合。

自下而上提取法:这种方法从现有数据源(如现有数据库、文件、报告等)中直接抽取数据元素,通过对实际数据的分析、清洗、归类,提炼出数据元。这种方法适用于已有大量现成数据、需要进行数据整合或数据迁移的场景,通过实际数据反推数据元定义,有助于发现并纠正现有数据问题,但可能需要额外工作来校验数据元与业务需求的一致性。

3. 数据模式标准化

数据模式是数据的概念、组成、结构及其相互关系的整体表述。数据模式标准化旨在对数据内容、组成、结构及各部分间关系进行统一规定,确保各领域、部门或数据集制作者遵循同一标准制作标准化数据。此外,数据模式遵循数据库理论进行规范化处理,有助于消除数据冗余,提升数据利用率。

数据模式的描述方法主要有:

图描述方法:如IDEFIX方法和UML图,常用于直观展现数据集中实体及其相互关系,便于理解数据的组织结构和关联逻辑。
数据字典方法:通过文字形式详细描述数据集、单个实体及其属性的摘要信息,提供数据模式的详细说明和定义,便于查阅和理解。
4. 数据分类与编码标准化

数据分类是根据数据内容的属性或特征,按照既定原则和方法对数据进行区分和归类,建立一套有序的分类体系。其要素包括分类对象和分类依据。

数据编码则是为事物或概念(编码对象)赋予一套具有规律、便于计算机和人类识别处理的符号系统,形成代码元素集合。数据分类与编码标准化对于简化信息交换、实现信息处理与资源共享至关重要,具体作用包括:

减少信息的重复采集、加工、存储等操作,节省资源。
统一事物名称和代码含义,确保规范化,确立代码与事物或概念间的一一对应关系,保障数据准确性与兼容性。
为信息集成与资源共享奠定坚实基础,利于信息系统间的共享与互操作。
统一数据表示法,提升信息处理效率。
5. 数据标准化管理

数据标准化管理涵盖确定数据需求、制定数据标准、批准数据标准及实施数据标准四个阶段,具体如下:

1. 确定数据需求:此阶段聚焦于识别并记录产生数据需求的相关文件,包括与之相关的元数据(描述数据的数据)和域值(数据可能取值的范围)。这些文件为后续标准化工作提供基础输入。

2. 制定数据标准:基于确定的数据需求,审视现有数据标准是否能满足新需求。若现有标准不足以应对,则可提出制定新的数据标准,或建议修订、停用(封存)已有的数据标准,以适应业务变化或技术发展。

3. 批准数据标准:数据管理机构负责对提交的新数据标准建议、现行标准的修改建议或封存建议进行审查。一旦获得批准,这些标准将被纳入或更新至数据模型中,确保数据模型与最新的标准化要求保持一致。

4. 实施数据标准:在各个信息系统中贯彻执行已批准的数据标准。这包括对现有系统进行相应改造,以遵循新标准;在新系统开发中直接应用标准;并持续监控与改进数据标准在实际应用中的效果,确保标准化要求在全组织范围内得到落实。

2.3数据运维♥♥♥
1. 数据存储

数据存储是指在不同的应用环境下,通过选择适当、安全且高效的手段,将数据妥善保留在物理介质上,并确保能够对数据进行有效的访问与管理。这一过程包括以下几个关键方面:

1.1 数据存储介质

数据存储的第一步是选择适宜的存储介质,它是承载数据的基础。常见的存储介质类型主要有以下三种:

磁带:适合大规模、低成本的离线备份与归档,访问速度相对较慢,但具有较高的容量和长久保存优势。
光盘:包括CD、DVD、蓝光光盘等,适用于固定内容的存储和分发,特点是存储寿命长、便携,但容量相对有限且扩展不便。
磁盘:包括硬盘驱动器(HDD)和固态硬盘(SSD),作为主流的在线存储介质,提供快速访问和高容量,HDD成本较低但速度较SSD慢,SSD则以高速度和低延迟著称,但成本相对较高。
1.2 存储管理

有效的数据存储不仅仅是物理介质的选择,还包括对存储资源的全面管理,以确保数据的安全性、可用性及高效利用。存储管理主要包括以下几个方面:

资源调度管理:根据业务需求和数据访问特性,动态分配存储空间、调整数据布局,确保资源在不同应用间合理分配,提高存储资源利用率。
存储资源管理:监控存储容量使用情况,规划存储空间增长,进行容量预警、扩容与数据迁移等工作,以应对数据量的增长和业务需求的变化。
负载均衡管理:在多存储设备或分布式存储系统中,通过智能分配读写请求,避免单点过载,确保数据访问的稳定性和响应速度。
安全管理:实施数据加密、访问控制、备份恢复、容灾策略等措施,防止数据泄露、篡改或丢失,确保数据的机密性、完整性和灾难恢复能力。

2. 数据备份
数据备份是一种防范措施,旨在应对用户误操作、系统故障等意外情况导致的数据丢失。该过程涉及将整个应用系统的全部数据或关键部分数据复制到另一存储介质上,确保在原始数据受损时有可用的副本进行恢复。

备份结构类型:

DAS备份结构:直连式存储(Direct Attached Storage)备份,即备份设备直接连接到服务器。
基于LAN的备份结构:通过局域网(Local Area Network, LAN)进行数据备份。
LAN-Free备份结构:虽然仍使用LAN,但备份数据流不占用LAN带宽,而是通过SAN(Storage Area Network)等专用网络传输。
SERVER-Free备份结构:备份过程中无需服务器参与数据传输,由备份设备直接与存储系统交互。
备份策略:

完全备份:备份所有数据,生成完整的数据副本。
差分备份:仅备份自上次完全备份以来发生变化的数据。
增量备份:仅备份自上次备份(无论是完全备份还是增量备份)以来新增或修改的数据。
3. 数据容灾

数据容灾是针对灾难性事件的防护策略,根据保护对象不同,可分为:

应用容灾:保护整个业务应用系统的连续运行能力。
数据容灾:作为应用容灾的基石,侧重于保护数据的安全性和可用性,确保在灾难后能快速恢复数据。
数据备份是实现数据容灾的基础,但容灾系统的设计远不止备份那么简单,它包括更复杂的策略和技术以确保业务连续性。

衡量容灾系统的指标:

RPO(Recovery Point Objective):灾难发生时允许丢失的数据量,即期望的恢复点,决定了备份数据的更新频率和保护级别。
RTO(Recovery Time Objective):系统恢复到正常运行所需的时间,反映了业务中断的容忍度和容灾方案的响应速度。
4. 数据质量与评价控制

数据质量描述:

数据质量可通过数据质量元素来界定,这些元素分为定量元素和非定量元素两类,分别从可量化的维度和难以量化的维度描述数据的优劣。

数据质量评价方法:

直接评价法:将数据与已知的参照信息(如理论值、标准值)进行比较,直接判断数据的准确性、一致性等质量特性。
间接评价法:通过分析数据的来源、采集方法、处理过程等相关信息,推断或评估数据的质量水平,适用于无法直接对比数据质量的情况。
数据质量控制
数据质量控制分为前期控制与后期控制两大阶段,涵盖了数据生命周期中的关键环节,确保数据的准确性和可靠性。

前期控制:
包括在数据录入前的质量预控措施以及数据录入过程中的实时监控。

数据录入前的质量控制:关注数据源头的管理,如数据采集规范、数据提供者资质审查、数据采集设备校验等,确保初始数据的质量。
数据录入过程中的实时质量控制:运用自动化工具或人工干预,实时监测数据录入过程,识别并纠正数据录入错误,确保数据按照预设标准准确无误地进入系统。
后期控制:
针对数据录入完成后进行的后处理质量控制与评价活动。

后处理质量控制:对已完成录入的数据进行全面审核,查找遗漏、错误或不一致之处,可能涉及数据完整性检查、一致性验证、逻辑错误排查等。
评价:通过制定数据质量评估标准和指标,对数据的整体质量进行量化评估,为后续的数据改进措施提供依据。
依据建库流程划分:

数据质量控制还可依据数据库建设的具体流程进一步细分为四个阶段:

前期控制:同上,涵盖数据准备阶段的质量保障措施。
过程控制:贯穿数据处理过程,如数据转换、清洗、整合等环节,持续监控数据质量,确保中间结果的准确性。
系统检测:对建成的数据库系统进行功能测试、性能测试及数据完整性测试等,确保系统能够正确、高效地管理和提供高质量数据。
精度评价:对入库数据进行精度评估,如空间数据的几何精度、属性数据的准确性等,确保数据满足特定应用场景的需求。
数据清理

数据清理是数据质量控制中的重要环节,通常遵循以下三个步骤:

数据分析:
通过对原始数据进行深入探究,揭示其内在规律和特征,为数据清理规则的制定提供依据。

定义规则:识别数据字段的域值范围、业务关联规则、数据间关系等,明确数据应遵循的标准和约束。
选择算法:根据数据特性和清理需求,选取合适的清洗算法或工具,如异常值检测算法、重复记录识别算法等。
数据检测:
依据预定义的清理规则和所选算法,对数据进行系统性检查,识别存在问题的数据项。

合规性检测:检查数据是否符合预设的字段域规则、业务规则等,如数据类型是否正确、数值范围是否合理等。
重复性检测:检测数据集中是否存在重复记录,以消除冗余和保持数据唯一性。
数据修正:
针对检测到的问题数据,采取手动或自动方式予以修正,提升数据质量。

错误数据修正:对检测到的错误数据进行修正,如改正格式错误、填充缺失值、调整不合理值等。
重复记录处理:合并、删除或标记重复记录,确保数据集中每个实体的唯一表示。


2.4数据开发利用
1. 数据集成

定义:数据集成是将分布在不同数据源中的数据进行有效整合的过程,旨在为用户提供一个统一、一致的数据视图。用户通过这个视图可以透明地访问各个数据源,无需关心数据的具体来源和存储细节。

目标:数据集成的目标旨在最大化利用已有的异构数据资源,同时尽可能保留各数据源的独立性和自治性。通过集成,系统致力于维护数据源间的一致性,减少冗余与冲突,从而显著提高数据共享和利用的效率。实现数据集成功能的系统称为数据集成系统。这类系统提供了一个统一的数据源访问接口,使得用户可以通过该接口便捷地发起对各个数据源的访问请求,无需直接对接各个分散的数据源,简化了数据访问和管理的复杂性。

2. 数据挖掘

定义:数据挖掘是从海量数据中自动或半自动地发现有价值的知识、规律、模式或趋势的过程。这些知识通常隐藏在原始数据中,通过数据挖掘技术可以将其揭示出来,为决策支持、预测分析、知识发现等应用提供依据。

数据挖掘的目标:是发现隐藏于数据之后的规律或数据间的关系,从而服务于决策。
数据挖掘主要任务:数据总结、关联分析、分类和预测、聚类分析和孤立点分析。
数据挖掘流程:确定分析对象、数据准备、数据挖掘、结果评估与结果应用五阶段

3. 数据服务

内容:数据服务主要包括以下几个核心组成部分:

数据目录服务:这是一种用于快速查找并确定所需数据资源位置的检索服务,旨在帮助用户高效地发现和定位所需的数据。

数据查询与浏览及下载服务:作为网上数据共享服务的关键手段,用户可以通过两种主要方式使用数据:一是在线查询数据,二是直接下载所需数据至本地进行进一步分析或使用。

数据分发服务:这一过程涉及数据生产者通过各种渠道将数据传递到最终用户手中。分发服务的核心环节包括数据的发布、数据的公开可发现性、数据质量与价值的评价,以及用户实际获取数据的操作。

4. 数据可视化

分类:数据可视化的表现形式可以根据数据的维度、时间属性、结构特征等因素划分为七种主要类型:

一维数据可视化:适用于单一变量或属性的数据展示,如时间序列图。

二维数据可视化:用于呈现两个变量间关系的图表,如散点图、柱状图、折线图等。

三维数据可视化:在二维基础上增加第三个维度,如三维柱状图、立体散点图等,适用于具有三个量化变量的数据集。

多维数据可视化:处理含有多个变量或维度的数据,可能通过颜色、形状、大小等视觉编码来表达多个属性,如平行坐标图、雷达图等。

时态数据可视化:专注于展现数据随时间变化的趋势或模式,如时间滑块、动态热力图、流图等。

层次数据可视化:适用于具有层级结构的数据,如树状图、嵌套饼图、旭日图等,能够清晰展现不同层次间的隶属关系与比例关系。

网络数据可视化:用于描绘节点(实体)间复杂连接关系的图形,如节点链接图、社交网络图、依赖关系图等,适用于展现非线性、非层次的网络结构数据。


5. 信息检索
按照用户的检索需求,利用已有的检索工具或数据库,从中找出特定信息的过程
信息检索主要方法

全文检索:

处理对象:以文本数据为主。
检索依据:根据数据资料的实际内容,而非其外在形式特征进行信息检索。
字段检索:

数据组织:将检索对象按照一定标准划分到不同的字段中进行著录。
检索方式:以这些不同字段作为检索的依据,有针对性地查找信息。
基于内容的多媒体检索:

分类:细分为图像检索、视频检索和声音检索等。
目标:针对非文本类型的多媒体数据,根据其内在内容特性进行信息检索。
数据挖掘:

数据特性:处理大量、不完全、模糊、随机的数据。
目的:从这些数据中发现并提取隐含的、未知的、潜在的有价值信息和知识。
信息检索常用技术

布尔逻辑检索技术:

操作:利用布尔逻辑运算符(如 AND、OR、NOT)连接各个检索词。
过程:计算机执行逻辑运算,以精确匹配的方式找出符合要求的信息。
截词检索技术:

原理:使用检索词的部分字符(即截断的词的局部)进行查询。
命中标准:凡包含该词局部所有字符的信息均视为检索结果的命中项。
临近检索技术(位置检索):

特点:通过检索式中特定符号指示检索词之间的相对位置关系。
作用:确保检索结果中检索词以特定顺序或距离出现,提升检索精度。
限定字段检索技术:

定义:指定检索词需出现在记录中的特定字段内。
效果:计算机仅在限定字段内进行匹配运算,旨在提高检索效率和查准率。
限制检索技术:

策略:通过设定条件限制检索的范围或条件。
目标:优化检索过程,使其更加精准、高效地聚焦于所需信息。
2.5数据库安全
1.数据库安全威胁
数据库安全威胁的主要类型:安全后果、威胁方式
2.数据库安全对策
根据数据库安全威胁的特点,制订应对策略
3.数据库安全机制
数据库安全机制包括用户的身份认证、存取控制,数据库加密、数据审计、推理控制等内容

  • 15
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值