数据预处理

最新推荐文章于 2023-03-09 23:17:17 发布

qq_47537678

最新推荐文章于 2023-03-09 23:17:17 发布

阅读量1.5k

点赞数 1

分类专栏：数据仓库文章标签：数据挖掘数据仓库数据库

本文链接：https://blog.csdn.net/qq_47537678/article/details/120736619

版权

数据仓库专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

前言
数据预处理
数据离散化与概念分层
- - - 离散化
    - 标称数据的概念分层产生

前言

提示：这里可以添加本文要记录的大概内容：
例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

数据预处理

高质量的决策必然依赖高质量的数据
数据仓库需要高质量数据的一致集成

数据预处理原因
现实世界中的数据是脏的
不完全：缺少属性值，缺少某些有趣的属性，或仅包含聚集属性
噪音：包含错误或孤立点
不一致：编码或名字存在差异
数据脏的原因

不完全数据：数据收集时未包含、数据收集和数据分析时的不同考虑、人/软件/硬件问题
噪声数据：收集、录入、变换
不一致数据：不同数据源、违反函数依赖

数据质量

采集角度：准确性、完整性、一致性
应用角度：相关性、时效性
用户角度：可信性、可解释性

目的：提升数据质量，符合数据挖掘的需求，保证数据挖掘的正确性和有效性

准确性

准确性：数据是正确的，数据存储在数据库中的值对应于真实世界的值

造成数据不准确的原因：
1、数据输入错误
2、数据传输过程中的错误
3、命名约定、数据代码、输入字段的格式不一致

完整性

完整性：指信息具有一个实体描述的所有必需的部分，在传统关系型数据库中，完整性通常与空值（Null)有关。一般包括记录的缺失和记录属性的缺失。

原因：数据输入时，人为疏漏或机器故障

一致性

一致性：在数据库中是指在不同地方存储和使用的同一数据应当是等价的，表示数据有相等的值和相同的含义

不一致的情况：
1、逻辑不一致
2、记录规范不一致：不同数据库对同一属性的命名规则不一致
3、数据冗余时数据内容不一致

相关性

相关性：数据的相关性是指数据与特定的应用和领域有关

数据相关性的应用场景：
1、构造预测模型时，需要采集与模型相关的数据
2、相同的数据，在不同的应用领域，相关性也是不一样的

时效性

时效性：数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约着决策的客观效果。

应用场景：商品推荐、城市交通

可信性

可信性：数据来源的权威性、数据的规范性、数据的产生时间

可解释性

可解释性：反映数据是否容易理解

数据清洗

数据清洗是数据仓库构建中最重要的问题

数据清洗的任务：

1、填写空缺的值
2、识别离群点和平滑噪声数据
3、纠正不一致的数据
4、解决数据集造成的冗余

缺失值处理：

1、忽略元组
2、人工填写：人为填充、工作量大、不可行
3、全局变量：采用全局变量来替换空缺值
4、使用属性的中心度量
5、用同类样本属性的中心度量
6、使用最可能的值：利用回归、贝叶斯计算公式推断最可能的值、最近距离决定填补法、回归填补法、多重填补方法、K-最近邻法、有序最近邻法、基于贝叶斯的方法、热卡填补法。

噪声数据：

噪声：在测量一个变量时可能出现的测量值相对于真实值的偏差或者错误。

孤立点：不符合数据模型的数据
噪声处理的目的：降低对数据分析和结果的影响
引起噪声数据的原因：

1、错误的数据收集工具
2、数据录入问题、数据传输问题
3、技术限制
4、不一致的命名惯例

噪声数据的判别方法：

1、简单统计分析：规定范围，范围以外的值。
对属性值进行一个描述性的统计，从而查看哪些值是不合理的。
2、3δ原则：若数据服从正态分布，当样本距离平均值大于3δ，认为该样本为异常值
3、使用距离检测多元离群点
当数据不服从正态分布时，可通过远离平均距离多少倍的标准差来判定，具体取值依据经验以及实际情况来确定
4、基于模型检测
建立数据模型，异常是不能同模型完全拟合的对象。
如果模型是簇的集合，异常是不显著属于任何簇的对象
使用回归模型时，异常是相对远离预测值的对象
5、基于密度
适合非均匀分布的数据。
当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。

基于模型的噪声检测和处理 — 回归

采用一个函数拟合数据来光滑数据

回归：利用拟合函数对数据进行平滑及除去噪声。
发现两个相关变量之间的变化模式，通过使数据适合一个函数来平滑数据。通过构造函数来符合数据变化的趋势，这样可以用一个变量预测另一个变量

线性回归（简单回归): 利用直线建模，将一个变量看作另一个变量的线性函数
非线性回归：设计多个属性，拟合到一个多维的面

噪声数据的处理 – 聚类
簇：一组数据对象集合。同一簇内的所有对象具有相似性，不同簇间对象具有较大差异。
聚类：将物理的或抽象对象的集合分组为由不同簇，找出并清除那些落在簇之外的值（孤立点），这些孤立点被视为噪声
特点：直接形成簇并对簇进行描述，不需要任何先验知识。

聚类：每个簇中的数据用其中心值代替
忽略孤立点
先通过聚类等方法找出孤立点，该孤立点可能包含有用信息
人工再审查这些孤立点

计算机和人工检查相结合：人工检查可疑值

噪声数据的处理方法：
删除含有异常值的记录
将异常值视为缺失值，使用缺失值处理方法来处理
不处理

分箱
主要问题：
- 分箱方法、如何分箱；
- 数据平滑方法，即如何对每个箱子中的数据进行平滑处理

分箱：把待处理的数据按照一定的规则放进一些箱子中，考察每一个箱子中的数据，采用某种方法分别对各个箱子中的数据进行处理。
箱子：按照属性值划分的子区间，如果一个属性值处于某个子区间范围内，就称把该属性值放进这个子区间代表的“箱子”里。

具体方法：

等宽划分
若A和B是属性的最低和最高取值, 区间宽度为: W = (B –
A)/N.
等频/等深划分
分成n个区间, 每一个含近似相同数目的样本

平滑方法：
1、按箱的平均值平滑
2、按箱的中值平滑
3、按箱的边界值平滑

处理不一致数据的方式：
1、人工更正
2、利用知识工程工具
3、数据字典

在这里插入图片描述

数据集成

定义：将互相关联的分布式异构数据源集成到一起，使用户能够以透明的方式访问到这些数据。

信息孤岛：指不同软件间，尤其是不同部门间的数据信息不能共享，造成系统中存在大量冗余数据、垃圾数据，无法保证数据的一致性。

数据集成框架：
在这里插入图片描述
数据仓库：将来自各个独立数据源的数据加载并存储到一个物理数据库（称为数据仓库）中，然后在这些数据上进行查询等操作。
虚拟集成系统中，数据还是保存在原来的数据源中，只在需要查询时才被访问。

数据集成的方法：

虚拟方式：联邦数据库

联邦数据库系统：一组彼此协作又相互独立的单元数据库系统的集合，对该系统提供整体控制和协同操作的软件叫做联邦数据库管理系统

虚拟方式：中间件集成

通过统一的全局数据模式来访问异构的数据源
中间件系统主要集中为异构数据源提供一个高层次检索服务

实际存储方式：数据复制

一种实际存储方式，将各个数据源的数据复制到同一处，即数据仓库。

涉及到的主要问题：

模式集成/模式匹配
在中介模式和源数据模式上建立映射关系
实体识别
多个数据源的真实世界的实体识别
数据冗余
属性冗余：某个属性可以由别的属性推出
相关分析：可用于检测冗余数据
冲突检测
数据值冲突

在这里插入图片描述

数据规约

数据规约目的：
精简数据集合，同时保持原有数据集的完整性，提高数据挖掘效率，并获得与原数据集基本相同的数据挖掘结果。

标准：

1、用于规约的时间不应当超过或抵消在规约后的数据上挖掘节省的时间
2、规约得到的数据比原数据小的多，但可以产生几乎相同的分析结果

数据规约：维归约、数量规约、数据压缩

维归约（小波变换和主成分分析（PCA））

特征规约，通过减少属性特征的方式压缩数据量，移除不相关的属性，可以提高模型效率。特征选择：从原始特征中选择出和任务相关的特征
特征提取：将原始特征通过线性或非线性组合的方式转化为新的特征表示
目标：寻找出最小的属性子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布。

维归约–选择相关属性子集
启发式方法 Heuristic methods(因为指数级的可能性）：

逐步向前选择：

从一个空属性集（作为属性子集初始值）开始，每次从原来属性集合
中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出
最优属性或满足一定阈值约束为止。

逐步向后删除

从一个全属性集（作为属性子集初始值）开始，每次从当前属性子集
中选择一个当前最差的属性并将其从当前属性子集中消去。直到无法
选择出最差属性为止或满足一定阈值约束为止。

向前选择和向后删除结合
判定树（决策树）归纳
出现在决策树种的属性构成最后的属性子集
基于统计分析的规约

维度规约 – 属性/特征产生
特征产生新的属性，其可以比原始属性更有效地表示数据的重要信息。
三个一般方法：

1、特定领域的属性提取
2、映射数据到新空间：傅里叶变换，流形方法
3、属性构造：组合特征、数据离散化

主成分分析（PCA）
K-L变换
找到一个投影，其能表示数据的最大变化
原始数据投影到一个更小空间种，导致维度减少

PCA：，旨在利用降维的思想，把多指标转化为少数几个综合指标（即主成分），其中每个主成分都能够反映原始变量的大部分信息，且所含信息互不重复。

数量规约
选择替代的、“较小的”数据表示形式
参数方法：假设数据适合某个模型，估计模型参数，仅存储参数，并丢弃数据（孤立点除外），回归和对数的线性模型。
非参数方法：不假定模型
离散化、概念分层
参数回归法：

通常采用一个模型来评估数据，该方法只需要存
放参数，而不是实际数据。能大大简少数据量，
但只对数值型数据有效。
线性回归、非线性回归

回归和对数线性模型
线性回归

数据被拟合为一条直线Y = w X + b
两个回归系数，w和b，由手头的数据来进行估算
最小二乘法进行拟合

多元线性回归

线性回归的扩充，允许响应变量Y被建模为两个或多个预测变量的线性函数Y = b0 + b1 、X1 + b2 X2
允许响应变量Y表示为多个预测变量的函数
多元回归可以拟合多种非线性函数

对数线性模型

近似离散的多维概率分布

数据离散化与概念分层

三种类型属性：标称、序数、连续数值

概念分层
目的：实现离散化，实现数量规约

概念分层定义了一组由低层概念集到高层概念集的映射。允许在各种抽象级别上处理数据，从而在多个抽象层上发现知识。
概念分层结构可以用树来表示，树的每个节点代表一个概念
适用于标称型数据的数量归约，也可用于数值型和序数型

递归离散化属性，产生属性值分层划分：概念分层
用更抽象（更高层次）的概念来取代低层次或数据层的数据对象

数值型数据的概念生成方法：

分箱
属性的值可以通过将其分配到各分箱中而将其离散化。
利用每个分箱的均值和中数替换每个分箱中的值（均值或者中数进行平滑）
循环操作 -> 概念层次树
直方图
循环应用直方图分析方法处理每次划分结果，从而最终自动获得
多层次概念树，而当达到用户指定层次水平后划分结束。
聚类
聚类算法可以将数据集划分为若干类或组。每个类构成概念层次树的一个节点；每个类还可以进一步分解为若干子类，从而构成更低水平层次。
基于熵的离散化
自然划分分段
将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。

离散化

离散化技术：通过将属性（连续取值）域值范围分为若干区间，来帮助消减一个连续（取值）属性的取值个数，是一种数量规约的方法。
即：将连续属性的区域分为区间

适用于数值型和序数型数据
区间标号可以代替实际数据值
利用离散化减少数据量
有监督 vs 无监督：是否使用类的信息
某个属性上可以递归离散化
分裂Split（top-down） vs 合并merge（bottom-up）
自顶向下：由一个/几个点开始递归划分整个属性区间

离散化和概念分层：

概念分层：定义了一组由低层概念集到高层概念集的映射。它允许在各种抽象级别上处理数据，从而再多个抽象层上发现知识。
用较高层次的概念替换低层次（如年龄的数值）的概念，以此来减少取值个数。

虽然一些细节再数据泛化过程中消失了，但这样所获得的繁华数据或许会更易于理解、更有意义。在消减后的数据集上进行数据挖掘显然效率更高。

概念分层结构可以用树来表示，树的每个节点代表一个概念。
适用于标称型数据的数量规约，也可用于数值型和序数型
概念分层的目的是为了实现离散化，实现数量规约。

3-4-5规则

在这里插入图片描述

标称数据的概念分层产生

用更抽象（更高层次）的概念来取代低层次或数据层的数据对象。

类别属性可取有限个不同的值且这些值之间无大小和顺序。这样的属性由：国家、工作、商品类别等。

构造类别属性的概念层次树的方法：
指定属性之间的包含关系产生分层，（用户/专家在模式级显示地指定属性的偏序）

在这里插入图片描述通过显示的数据分组说明分层结构的一部分，对数据进行分组（聚合）产生分层

在这里插入图片描述
说明属性值但不说明其偏序，由属性值的个数产生分层

系统自动产生属性偏序，根据每个属性下不同值的数据
启发式规则：相比低层，高层概念的属性通常有较少取值

在这里插入图片描述
只说明部分属性值，根据数据语义产生分层

qq_47537678

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
数据预处理

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言数据预处理数据质量准确性完整性一致性相关性时效性可信性可解释性二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。
复制链接

扫一扫

专栏目录