目录
5.2数据工程
数据工程的主要研究内容包括数据建模、数据标准化、数据运维、数据开发利用和数据安全等理论和技术。
5.2.1数据建模
1.数据模型
根据模型应用目的不同,可以将数据模型划分为三类:概念模型、逻辑模型和物理模型。
1)概念模型
概念模型也称信息模型,它是按用户的观点来对数据和信息建模,它是概念级别的模型。
基本元素:实体、属性、域、键、关联。
2)逻辑模型
逻辑模型是在概念模型的基础上确定模型的数据结构,目前主要的数据结构有层次模型、网状模型、关系模型、面向对象模型和对象关系模型。其中,关系模型成为目前最重要的一种逻辑数据模型。
关系模型基本元素包括关系、关系的属性、视图等。
关系的完整性约束包括三大类型:实体完整性、参照完整性和用户定义的完整性。
3)物理模型
物理模型的基本元素包括表、字段、视图、索引、存储过程、触发器等。
2.数据建模过程
数据建模过程包括数据需求分析、概念模型设计、逻辑模型设计和物理模型设计等过程。
5.2.2数据标准化
数据标准化是实现数据共享的基础。
数据标准化的主要内容包括元数据标准化、数据元标准化、数据模式标准化、数据分类与编码标准化和数据标准化管理。
1.元数据标准化
元数据最简单的定义是:元数据是关于数据的数据(DataAboutData)。
2.数据元标准化
一个互连、互通、互操作的开放系统互连环 境 (Open Systems Interconnection Environment,OSIE),OSIE四个基本要素(硬件、软件、通信和数据)。
1)数据元
数据元是数据库、文件和数据交换的基本数据单元。数据库或文件由记录或元组等组成,而记录或元组则由数据元组成。
数据元一般来说由三部分组成:①对象②特性③表示。
2)数据元提取
常用的数据元提取方法有两种:自上而下(Top-Down)提取法和自下而上(Down-Top)提取法。
3)数据元标准
步骤①描述②界定业务范围③开展业务流程分析与信息建模④借助于信息模型,提取数据元,并按照一定的规则规范其属性⑤对于代码型的数据元,编制其值域,即代码表⑥与现有的国家标准或行业标准进行协调⑦发布实施数据元标准并建立相应的动态维护管理机制
3.数据模式标准化
数据模式是数据的概念、组成、结构和相互关系的总称。
数据模式的描述方式主要有图描述方法和数据字典方法。图描述方法常用的有IDEFIX方法和UML图,主要用来描述数据集中的实体和实体之间的相互关系;数据字典形式用来描述模型中的数据集、单个实体、属性的摘要信息。
4.数据分类与编码标准化
数据分类有分类对象和分类依据两个要素。
确立代码与事物或概念之间的一一对应关系,以保证数据的准确性和相容性,为信息集成与资源共享提供良好的基础。数据分类与编码的作用主要包括用于信息系统的共享和互操作,统一数据的表示法和提高信息处理效率。
5.数据标准化管理
数据标准化阶段的具体过程包括确定数据需求、制定数据标准、批准数据标准和实施数据标准四个阶段。
5.2.3数据运维
1.数据存储
所谓数据存储就是根据不同的应用环境,通过采取合理、安全、有效的方式将数据保存到物理介质上,并能保证对数据实施有效的访问。
(1)数据存储介质。存储介质是数据存储的载体,是数据存储的基础。存储介质并不是越贵越好、越先进越好,要根据不同的应用环境,合理选择存储介质。类型主要有磁带、光盘和磁盘三种。
(2)存储管理。
主要内容:资源调度管理、存储资源管理、负载均衡管理、安全管理。
2.数据备份
常见的四种数据备份结构:DAS备份结构、基于LAN的备份结构、LAN-FREE备份结构和SERVER-FREE备份结构。
常见的备份策略主要有三种:完全备份、差分备份和增量备份。
3.数据容灾
根据容灾系统保护对象的不同,容灾系统分为应用容灾和数据容灾两类。
数据容灾是应用容灾的一个子集,也是应用容灾最根本的基础,因为“得数据者得天下”,数据是应用系统的基础。容灾是一个工程,而不仅仅是技术,有其完整的流程、规范及其具体措施。
数据备份是数据容灾的基础。数据备份是数据高可用的最后一道防线,其目的是为了在系统数据崩溃时能够快速恢复数据。
从技术上看,衡量容灾系统有两个主要指标:RPO(RecoveryPointObject)和RTO(RecoveryTimeObject),其中RPO代表了当灾难发生时允许丢失的数据量;而RTO则代表了系统恢复的时间。
4.数据质量评价与控制
数据质量评价方法分为直接评价法和间接评价法。
凡是有助于提高数据质量的处理过程,都可以认为是数据清理。一般说来,数据清理主要包括数据分析、数据检测和数据修正三个步骤。
5.2.4数据开发利用
1.数据集成
数据集成就是将驻留在不同数据源中的数据进行整合,向用户提供统一的数据视图(一般称为全局模式),使得用户能以透明的方式访问数据。
实现数据集成的系统称为数据集成系统。
2.数据挖掘
数据挖掘的目标是发现隐藏于数据之后的规律或数据间的关系,从而服务于决策。
数据挖掘常见的主要任务包括数据总结、关联分析、分类和预测、聚类分析和孤立点分析。
数据挖掘流程一般包括确定分析对象、数据准备、数据挖掘、结果评估与结果应用五个阶段。
3.数据服务
数据服务主要包括数据目录服务、数据查询与浏览及下载服务、数据分发服务。
4.数据可视化
可视化技术是指将抽象的事物或过程变成图形图像的表示方法。
可视化可分为七类:一维数据可视化、二维数据可视化、三维数据可视化、多维数据可视化、时态数据可视化、层次数据可视化和网络数据可视化。
5.信息检索
信息检索的主要方法:(1)全文检索。(2)字段检索。(3)基于内容的多媒体检索。(4)数据挖掘。
信息检索的常用技术包括布尔逻辑检索技术、截词检索技术、临近检索技术、限定字段检索技术、限制检索技术等。
5.2.5数据库安全
数据库安全是指保护数据库,防止不合法的使用所造成的数据泄露、更改或破坏。
1.数据库安全威胁
2.数据库安全对策
防止非法的数据访问(数据库安全关键的需求之一)、防止推导、保证数据库的完整性、保证数据的操作完整性、保证数据的语义完整性、审计和日志、标识和认证、机密数据管理、多级保护、限界。
3.数据库安全机制
数据库安全机制包括用户的身份认证、存取控制、数据库加密、数据审计、推理控制等内容。
5.3系统集成
5.3.1集成基础
系统集成的内容包括技术环境的集成、数据环境的集成和应用程序的集成。
系统集成工作的好坏对系统开发、维护有极大的影响。因此, 在技术上需要遵循的基本原则包括:开放性、结构化、先进性和主流化。
(1) 开放性。 系统硬软件平台、通信接口、软件开发工具、网络结构的选择要遵循工业开放标准,这是关系到系统生命周期长短的重要问题。
(2) 结构化。 复杂系统设计的最基本方法依然是结构化系统分析设计方法。
(3) 先进性。先进性有两层意义:目前先进性和未来先进性。系统设计的先进性贯穿在系统开发的整个 生命周期,乃至整个系统生存周期的各个环节。
(4) 主流化。系统构成的每一个产品应属于该产品发展的主流,有可靠的技术支持,有成熟的使用环境,并具有良好的升级发展势头。
5.3.2网络集成
(1)传输子系统。
传输是网络的核心,是网络信息的“公路”和“血管”。目前主要的传输介质分为无线传输介质和有线传输介质两大类。常用的无线传输介质主要包括无线电波、微波、红外线等,常用的有线传输介质主要包括双绞线、同轴电缆、光纤等。
(2)交换子系统。
网络按所覆盖的区域可分为局域网、城域网和广域网,由此网络交换也可以分为局域网交换技术、城域网交换技术和广域网交换技术。
(3)安全子系统。
网络安全主要关注的内容包括:使用防火墙技术,防止外部的侵犯;使用数据加密技术,防止任何人从通信信道窃取信息;访问控制,主要是通过设置口令、密码和访问权限保护网络资源。
(4)网管子系统。关键的任务便是保证网络的良好运行。
(5)服务器子系统。
选择网络服务器时要考虑以下因素:①CPU的速度和数量;②内存容量和性能;③总线结构和类型;④磁盘容量和性能;⑤容错性能;⑥网络接口性能;⑦服务器软件等。
(6)网络操作系统。
(7)服务子系统。网络服务是网络应用最核心的问题。
5.3.3数据集成
数据集成处理的主要对象是系统中各种异构数据库中的数据。数据仓库技术是数据集成的关键。
1.数据集成层次
数据集成可以分为基本数据集成、多级视图集成、模式集成和多粒度数据集成四个层次。
(1)基本数据集成。通用标识符问题是数据集成时遇到的最难的问题之一。处理该问题的办法包括:隔离、调和
(2)多级视图集成。
(3)模式集成。
(4)多粒度数据集成。实现该过程的主要途径有:时空转换,相关分析或者由综合中数据变动的记录进行恢复。数据集成是最终实现数据共享和辅助决策的基础。
2.异构数据集成
1)异构数据集成的方法
有两种,分别是过程式方法和声明式方法。
2)开放数据库互联标准
从异构数据库中提取数据大多采用开放式数据库互联(OpenDatabaseConnectivity,ODBC),ODBC是一种用来在数据库系统之间存取数据的标准应用程序接口。
3)基于XML的数据交换标准
4)基于JSON的数据交换格式
5.3.4软件集成
代表性的软件构件标准:公共对象请求代理结构(CommonObjectRequestBrokerArchitecture,CORBA)、COM、DCOM/与COM+、.NET、J2EE应用架构等标准。
CORBA是OMG进行标准化分布式对象计算的基础
COM具备了软件集成所需要的许多特征,包括面向对象、客户机/服务器、语言无关性、进程透明性和可重复性。
DCOM作为COM的扩展,不仅继承了COM优点,而且针对分布环境还提供了一些新的特性,如位置透明性、网络安全性、跨平台调用等。
COM+为COM的新发展或COM更高层次上的应用,其底层结构仍然以COM为基础,几乎包容了COM的所有内容。COM+与操作系统的结合更加紧密。
.NET开发框架在通用语言运行环境基础上,给开发人员提供了完善的基础类库、数据库访问技术及网络开发技术,开发者可以使用多种语言快速构建网络应用。
J2EE为搭建具有可伸缩性、灵活性、易维护性的组织系统提供了良好的机制。J2EE的体系结构可以分为客户端层、服务器端组件层、EJB层和信息系统层。
5.3.5应用集成
从信息系统集成技术的角度看,在集成的堆栈上,应用集成在最上层,主要解决应用的互操作性的问题。
应用集成或组织应用集成(EAI)是指将独立的软件应用连接起来,实现协同工作。
对应用集成的技术要求大致有:具有应用间的互操作性、具有分布式环境中应用的可移植性、具有系统中应用分布的透明性。
可以帮助协调连接各种应用的组件有:应用编程接口(API)、事件驱动型操作、数据映射。
5.4安全工程
5.4.1工程概述
信息安全系统工程就是要建造一个信息安全系统,它是整个信息系统工程的一部分,而且最好是与业务应用信息系统工程同步进行,主要围绕“信息安全”内容。
5.4.2安全系统
信息系统“安全空间”三个维度包括安全机制、网络参考模型和安全服务。
“安全空间”的五大属性:认证、权限、完整、加密和不可否认。
1.安全机制
安全机制包含基础设施实体安全、平台安全、数据安全、通信安全、应用安全、运行安全、管理安全、授权和审计安全、安全防范体系等。
2.安全服务
安全服务包括对等实体认证服务、数据保密服务、数据完整性服务、数据源点认证服务、禁止否认服务和犯罪证据提供服务等。
数据完整性服务用以防止非法实体对交换数据的修改、插入、删除以及在数据交换过程中的数据丢失。
数据保密服务包括多种保密服务,为了防止网络中各系统之间的数据被截获或被非法存取而泄密,提供密码加密保护。
5.4.3工程基础
信息安全系统建设是遵从组织所制定的安全策略进行的。
5.4.4工程体系架构
信息系统安全工程(InformationSecuritySystemEngineering,ISSE)是一门系统工程学,它的主要内容是确定系统和过程的安全风险,并且使安全风险降到最低或使其得到有效控制。
1.ISSE-CMM基础
信息安全系统工程能力成熟度模型(ISSECapabilityMaturityModel,ISSE-CMM)是一种衡量信息安全系统工程实施能力的方法,是使用面向工程过程的一种方法。
ISSE-CMM是建立在统计过程控制理论基础上的。
ISSE-CMM主要适用于工程组织(EngineeringOrganizations)、获取组织(AcquiringOrganizations)和评估组织(EvaluationOrganizations)。
2.ISSE过程
ISSE并不是一个独立的过程,它依赖并支持系统工程和获取(保证)过程,而且是后者不可分割的一部分。
ISSE将信息安全系统工程实施过程分解为:工程过程(EngineeringProcess)、风险过程(RiskProcess)和保证过程(AssuranceProcess)三个基本的部分。
3.ISSE-CMM体系结构
这个体系结构的目标是为了落实安全策略,而从管理和制度化突出信息安全工程的基本特征。