大数据项目3（数据规约）

最新推荐文章于 2023-07-05 22:03:31 发布

张张同学！

最新推荐文章于 2023-07-05 22:03:31 发布

阅读量4k

点赞数 1

分类专栏：大二-大三-大数据项目文章标签： python 大数据

本文链接：https://blog.csdn.net/qq_46126118/article/details/118934861

版权

大二-大三-大数据项目专栏收录该内容

11 篇文章 6 订阅

订阅专栏

数据规约是数据预处理的重要步骤，通过维度规约（如PCA、小波变换、特征选择）和数量规约（如参数化、非参数化方法）降低数据复杂性。这种方法旨在在保持信息关键性的前提下，减少数据的规模，提高分析效率。小波变换能同时捕捉信号的频率和时间信息，PCA则适用于离散数据的压缩，特征选择则通过删除冗余属性减少维度。参数化数据规约利用回归模型简化数据，而非参数化方法如聚类和抽样则用于数据的群体表示和采样。

摘要由CSDN通过智能技术生成

一、简介

在数据集成与清洗后，我们能够得到整合了多数据源同时数据质量完好的数据集。但是，集成与清洗无法改变数据集的规模。我们依然需通过技术手段降低数据规模，这就是数据规约（Data Reduction）。数据规约采用编码方案，能够通过小波变换或主成分分析有效的压缩原始数据，或者通过特征提取技术进行属性子集的选择或重造。

二、数据分析与挖掘体系位置

数据规约是有数据预处理中的一个过程。所以其在数据分析与数据挖掘中的位置如下图所示。
在这里插入图片描述

三、数据规约方法

数据规约方法类似数据集的压缩，它通过维度的减少或者数据量的减少，来达到降低数据规模的目的，数据压缩（Data Compression）有无损与有损压缩。方法主要是下面两种：

维度规约（Dimensionality Reduction）：减少所需自变量的个数。代表方法为WT、PCA与FSS。
数量规约（Numerosity Reducton）：用较小的数据表示形式替换原始数据。代表方法为对数线性回归、聚类、抽样等。

1、维度规约（Dimensionality Reduction）

（1）小波变换（Wavelet Transform，WT）

小波变换是由傅里叶变换（FFT）发展而来的。

首先，傅里叶变换是一种针对信号频率的分解转换方法。它通过把信号分解成正余弦函数，把时域信号转为频率信号。但是FFT方法存在缺陷，就是经过拆分之后的信号只能显示其包含哪些成分，但是包含的各个成分出现的时间无法体现出来。

因此，就出现了短时傅里叶变换（STFT），它再FFT的基础上加入的时域的概念。STFT通过设置窗格，并假设窗格内信号是平稳的，对每个窗格内的信号分段进行FFT变换。其引入了时域信息，但是窗格的正确划分确很难判定。

最后，就产生了小波变换（WT），在方法上，WT将FFT的基由无限长的三角函数基换成了有限长会衰减的小波基。能在获取频率的同时定位时间。

在数据规约中，对数据进行小波转换后截断数据，保存最强的小波系数，从而保留近似的压缩数据。

（2）主成分分析（Principal Component Analysis，PCA）

主成分分析通过寻找原自变量的正交向量，将原有的n个自变量重新组合为不相关的新自变量。

当数据中存在的自变量个数过多，或者自变量之间存在相关性时，可以考虑使用PCA的方法重构自变量。

与小波变换相比，PCA能更好的处理离散数据，而WT更适合高维度数据。

（3）特征集选择（Feature Subset Selection，FSS）

特征选择时通过删除不相关或冗余的属性来减少维度与数据量。其目的是：定位最小属性集，使得数据的概率分布尽可能接近使用所有属性得到的原分布，简单说，就是从全部属性中选取一个特征属性子集，使构造出来的模型更好。

特征集选择的步骤一般是：建立子集集合、构造评价函数、构建停止准则、验证有效性。

选择特征集的方式一般有：序列向前、序列向后、序列前后组合、决策树方式这4中。

2、数量规约（Numerosity Reduction）

（1）参数化数据规约

参数化数据规约可以用回归模型与对数线性模型来实现。

首先，对数值型的数据，可以用回归的方法，对数据建模，使之拟合成直线或平面。在简单线性回归中，随机变量y可以表示为另一个随机变量x的线性函数。通过最小二乘法可以定义线性函数方程。在多元线性回归中，随机变量y可以用多个随机变量表示。

其次，如果我们想分析多个分类变量间的关系，对多个分类变量间的关系给出系统而综合的评价，就可以采用对数线性模型。常见的逻辑回归就是对数线性模型的一种。对数线性模型中的Logit过程如果用来分析自变量与因变量的交互项的话，其实是逻辑回归模型的结果。只不过对数线性模型显示的是属性之间的相互关系，并不需区分Y与X。