第六章:数据工程(6.5数据分析及应用--6.6数据脱敏和分类分级)

6.5 数据分析及应用

6.5.1 数据集成

1. 数据集成方法

数据集成方法分为:模式集成、复制集成、混合集成

方法描述
模式集成也叫虚拟视图方法,是人们最早采用的数据集成方法,也是其他数据集成方法的基础。其基本思想是:在构建集成系统时,将各数据源共享的视图集成为全局模式,供用户透明地访问各数据源的数据
复制集成将数据源中的数据复制到相关的其他数据源上,并对数据源的整体一致性进行维护,从而提高数据的共享和利用效率。数据复制可以是整个数据源的复制,也可以是仅对变化数据的传播与复制
混合集成该方法为了提高中间件系统的性能,保留虚拟数据模式视图为用户所用,同时提供数据复制的方法
2. 数据访问接口

数据访问接口标准有:ODBC、JDBC、OLE DB 、ADO

接口标准描述
ODBCODBC是用于数据库访问的应用程序编程接口(API)。 0DBC由应用程序接口驱动程序管理器、驱动程序和数据源4个组件组成
JDBCJava程序提供标准的数据库访类和接口
OLE DBOLE DB是一个基于组件对象模型的数据存储对象,能提供对所有类型数据的操作,甚至能在离线的情况下存取数据
ADOADO是应用层的接口,ADO使用简单,易于学习,己成为常用的实现数据访问的主要手段之一
3. Web Services

Web services技术是一个面向访问的分布式计算模型,是实现Web数据和信息集成的有效机制。它的本质是用一种标准化方式实现不同服务系统之间的互调或集成

三要素是: WSDL、SOAP、UDDI

要素描述
WSDL是一种基于XML格式的关于Web服务的描述语言
SOAP是消息传递的协议,它规定了Web services之间是怎样传递信息的
UDDIUDDI是一种创建注册服务的规范,起着目录服务器的作用,以便服务提供者注册发布webservices,供使用者查找
4. 数据网格技术

数据网格是一种用于大型数据集的分布式管理与分析的体系结构

数据网格的透明性体现为:分布透明性、异构透明性、数据位置透明性、数据访问方式透明性

标题
分布透明性用户感觉不到数据是分布在不同的地方的
异构透明性用户感觉不到数据的异构性,感觉不到数据存储方式的不同、数据格式的不同、数据管理系统的不同等
数据位置透明性用户不用知道数据源的具体位置,也没有必要了解数据源的具体位置
数据访问方式透明性不同系统的数据访问方式不同,但访问结果相同

6.5.2 数据挖掘

数据挖掘与传统数据分析存在较大的不同,主要表现在以下4个方面

  1. 两者分析对象的数据量有差异
  2. 两者运用的分析方法有差异
  3. 两者分析侧重有差异
  4. 两者成熟度不同

数据挖掘常见的主要任务 包括数据总结、关联分析、分类和预测、聚类分析和孤立点分析

主要任务
数据总结目的是对数据进行浓缩,给出它的总体综合描述
关联分析置信度度量了关联规则的强度
分类和预测根据数据的属性将数据分派到不同的组中,并预测新数据将属于哪个组
聚类分析每一个集合中的数据性质相近不同集合之间的数据性质相差较大
孤立点分析就是从数据库中检测出偏差

数据挖掘流程一般包括确定分析对象、数据准备、数据挖掘、结果评估与结果应用5个阶段,这些阶段在具体实施中可能需要重复多次

6.5.3 数据服务

数据服务主要包括数据目录服务、数据查询与浏览及下载服务、数据分发服务

6.5.4 数据可视化

由于所要展现数据的内容和角度不同,可视化的表现方式也多种多样

主要可分为七类:一维数据可视化、二维数据可视化、三维数据可视化、多
维数据可视化、时态数据可视化、层次数据可视化和网络数据可视化

6.6 数据脱敏和分类分级

6.6.1 数据脱敏

1. 敏感数据

敏感数据可以分为个人敏感数据、商业敏感数据、国家秘密数据

为了更加有效地管理敏感数据,通常会对敏感数据的敏感程度进行划分,例可以把数据密级划分为5个等级: 分别是L1(公开)、L2(保密)、L3(机密)、L4(绝密)和L5(私密)

2. 数据脱敏方式

数据脱敏方式包括可恢复与不可恢复两类

·可恢复类指脱敏后的数据可通过一定的方式,恢复成原来的敏感数据
此类脱敏规则主要指各类加解密算法规则。

·不可恢复类指脱敏后的数据被脱敏的部分使用任何方式都不能恢复
般可分为替换算法和生成算法两类。

3. 数据脱敏原则

数据脱敏原则主要包括算法不可逆原则、保持数据特征原则、 保留引用完整 性原则、规避融合风险原则、脱敏过程自动化原则和脱敏结果可重复原则等。

6.6.2 数据分类

数据分类有分类对象分类依据两个要素。

6.6.3 数据分级

数据分级常用的分级维度有按特性分级、基于价值(公开、内部、重要
核心等)、
基于敏感程度(公开、秘密、机密、绝密等)、
基于司法影响范围(境内、跨区、跨境等)等。

从国家角度出发: 分为: 一般数据、重要数据、核心数据
在这里插入图片描述

PS: 更多关于系统集成项目管理工程师笔记 点击专栏订阅(持续更新~~~)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HappyAcmen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值