数据预处理（理论总结）

最新推荐文章于 2021-11-11 10:31:45 发布

X_Jun005

最新推荐文章于 2021-11-11 10:31:45 发布

阅读量1.3k

点赞数

分类专栏：数据挖掘文章标签：数据挖掘数据分析

本文链接：https://blog.csdn.net/X_Jun005/article/details/116483895

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据预处理

数据清洗

就是删除，去除原始数据集中，无关的，重复的，平滑噪声的数据，筛选掉与挖掘无关的数据

缺失值处理

三种方法：删除，插补，不处理
常见插补
在这里插入图片描述
直接删除的缺点
它是以减少历史数据来换取数据的完备，会造成资源的大量浪费，在数据量本身就少的情况下，会造成大量隐藏在数据的信息丢失

异常值处理

在这里插入图片描述

数据集成

数据集成就是将分布在不同数据源的数据合并存放在一个一致的数据存储（如：数据仓库）中的过程

实体识别

指从不同数据源中识别出相同实体。它的任务是统一不同数据源的矛盾之处
1）同名异义
数据源A的ID与数据源B中的ID分别描述的是菜品编号和订单编号，即为不同的实体描述
2）同名同义
数据源A的ID与数据源B中的ID都表示的是菜品编号，即A ID = B ID
3）单位不统一
描述的是同一个实体分别用着不同的计量单位

冗余属性识别

数据集成往往导致数据冗余，例如
1）同一属性多次出现
2）同一属性命名不一致，导致重复

数据变换

主要是对数据进行规范化处理

简单函数变换

规范化

不同的评价指标往往有着不同的量纲，
最大最小规范化
均值规范化
小数定标规范化

连续属性离散化

某些分类算法要求数据是分类属性形式，常常需要将连续属性变换成分类属性，即连续属性离散化
1、离散化的过程
连续属性离散化，就是在数据的取值范围内设定若干个离散的划分点，将取值范围划分为离散的区间，最后用符号或整数值代表落在每个子区间的数据值，所以，离散化涉及两个任务：1、确定分类个数，2.如何将连续属性值映射为分类值
2、常用地离散化方法

1）等宽法
将属性的值域分成相同宽度的区间，区间的个数由特定的数据决定，或者由用户指定
对离群点非常敏感，因为是等宽，所以导致有些区间数值很多，而有些区间就极少，这样会严重损坏建立的决策模型
2）等频法
等频虽然避免了上述问题，但是，他可靠将相同的数据值划分到不同的区间
3）基于聚类分析的方法

属性构造

在挖掘时，为了提取更有用的信息，更深层次的模式，提高挖掘的精度，就需要利用已有的属性集构造出新的属性
在这里插入图片描述

小波变换

数据规约

意义：

降低无效，错误数据对建模的影响，提高建模的准确性
少量，且具代表性的数据将大幅缩减数据挖掘所需要的时间
降低存储数据的成本

属性规约

数据规约是通过将属性合并，或者直接将无用属性进行删除，从而提高数据挖掘的效率，
常用方法
在这里插入图片描述
主成分分析属性降维
参数：

n_components：所要保留的主成分个数
copy：将原始训练数据复制一份，TRUE：原始数据不会改变
whiten：白化，使得每个特征具有相同的方差

根据各成分方差贡献率选取主成分个数

数值规约

通过选择代替的。较小的数据来减少数据量

有参方法：使用一个模型来评估数据，只需存放参数，而不需要存放实际数据，例如：回归（线性回归和多元回归），和对数线性模型（近似离散属性集中的多维概率分布）
无参方法：需要存放实际数据，例如：直方图。聚类。抽样（采样）

直方图
抽样
常用抽样方法

s个样本无放回简单随机抽样
s个样本有放回简单随机抽样
聚类抽样
分层抽样

参数回归

python主要预处理函数

在这里插入图片描述

X_Jun005

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据预处理（理论总结）

数据预处理数据清洗缺失值处理异常值处理数据集成实体识别冗余属性识别数据变换简单函数变换规范化连续属性离散化属性构造小波变换数据规约属性规约数值规约python主要预处理函数数据清洗就是删除，去除原始数据集中，无关的，重复的，平滑噪声的数据，筛选掉与挖掘无关的数据缺失值处理三种方法：删除，插补，不处理常见插补直接删除的缺点它是以减少历史数据来换取数据的完备，会造成资源的大量浪费，在数据量本身就少的情况下，会造成大量隐藏在数据的信息丢失异常值处理数据集成数据集成就是将分布在不同数据源的
复制链接

扫一扫