机器学习入门笔记（二）：数据的预处理

最新推荐文章于 2024-07-26 13:24:37 发布

ntbzhanglipeng

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量587

点赞数 1

分类专栏：机器学习与数据挖掘文章标签：数据挖掘机器学习人工智能

本文链接：https://blog.csdn.net/weixin_38584316/article/details/79186353

版权

3 篇文章 0 订阅

订阅专栏

机器学习本身要通过对大量的数据进行训练进而生成模型。数据的质量就显得很重要，但我们有时拿到的数据的质量并不是那么的高，所以我们要对数据进行一些预处理，提高数据的质量。这些预处理包括采样、归一化、去噪和数据过滤等操作。

如果要处理的数据量很大，我们只需要从中选取部分样本进行训练即可，以达到节省计算量提高实验效率的目的，采样一般包括以下几种：

1、systematic sampling(系统采样)

系统采样一般是无放回采样，在样本内设置一定的间距，按间距选取样本进行采取。通常针对按某种规则有序排列的场景。

2、random sampling (随机采样)

随机采样一般分为有放回采样和无放回采样。从样本中随机的采取一定的样本作为训练或者验证的数据。

3、stratified sampling(分层采样)

分层采样是指将数据分为几种不同的类别，然后在每个类别中随机的抽取一定的样本，并把这些数据综合起来，形成我们所需要的数据。

对于我们所拿到的数据，我们有时需要把数据进行一定的简化，把数据简化在一定的范围之内，比如说[0,1]之间，可以降低运算难度，加快收敛速度，为后续的数据处理提供方便。数据归一化同时还是一种去量纲的过程，可以消除量纲对于计算的影响。

下面介绍两种归一化方法：

数据当中通常都会有些数据会对训练产生干扰。这些数据通常叫做噪声数据。噪声数据在相应的模型迭代中会会影响迭代的收敛速度去，在噪声数据的影响下，对生成的模型也会有很大的干扰。噪就是去除这部分有干扰的数据。

不同的场景适用不同的去噪算法，我们常用的是正态分布3 σ原则。 3σ准则又称为拉依达准则，它是先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。且3σ适用于有较多组数据的时候。

这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理，它是以测量次数充分大为前提的，当测量次数较少的情形用准则剔除粗大误差是不够可靠的。因此，在测量次数较少的情况下，最好不要选用准则，而用其他准则。
在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴。

正态分布的公式如下：

由于实际的数据集的数据落在（μ-3σ，μ+3σ）之间的概率高达99%，落在外面的概率小于千分之三。我们可以把3σ之外的数据全部清理掉，以减少噪声数据。

用来训练的数据集中通常包含有许多无关的数据或者重复的数据，例如文本数据，比如用户的昵称等，我们在具体的数据处理过程中要进行很多数值运算，我们就要对这些书进行清除。可以运用相关的数据库工具或者相关的库进行删除。以达到数据过滤的目的。

关注