MLK | 机器学习采样方法大全

最新推荐文章于 2023-09-12 01:39:18 发布

Pysamlam

最新推荐文章于 2023-09-12 01:39:18 发布

阅读量864

点赞数 1

本文链接：https://blog.csdn.net/Pysamlam/article/details/100978319

版权

本文是MLK机器学习知识系列的一部分，探讨数据采样的重要性和常见方法，包括逆变换采样、拒绝采样、重要性采样以及马尔科夫蒙特卡洛采样法。此外，还介绍了在处理失衡样本时的过采样和欠采样策略，如SMOTE、Border-Line SMOTE、ADASYN等方法。

摘要由CSDN通过智能技术生成

640?wx_fmt=png

MLK，即Machine Learning Knowledge，本专栏在于对机器学习的重点知识做一次梳理，便于日后温习，内容主要来自于《百面机器学习》一书，结合自己的经验与思考做的一些总结与归纳。本次主要讲解的内容就是数据采样的内容，主要介绍一些常见的数据采样方法以及理论。

其实我们在训练模型的过程，都会经常进行数据采样，为了就是让我们的模型可以更好的去学习数据的特征，从而让效果更佳。但这是比较浅层的理解，更本质上，数据采样就是对随机现象的模拟，根据给定的概率分布从而模拟一个随机事件。另一说法就是用少量的样本点去近似一个总体分布，并刻画总体分布中的不确定性。

因为我们在现实生活中，大多数数据都是庞大的，所以总体分布可能就包含了无数多的样本点，模型是无法对这些海量的数据进行直接建模的（至少目前而言），而且从效率上也不推荐。

因此，我们一般会从总体样本中抽取出一个子集来近似总体分布，这个子集被称为“训练集”，然后模型训练的目的就是最小化训练集上的损失函数，训练完成后，需要另一个数据集来评估模型，也被称为“测试集”。

采样的一些高级用法，比如对样本进行多次重采样，来估计统计量的偏差与方法，也可以对目标信息保留不变的情况下，不断改变样本的分布来适应模型训练与学习（经典的应用如解决样本不均衡的问题）。

采样的原因在上面已经阐述了，现在我们来了解一下采样的一些算法：

有的时候一些分布不好直接采样，可以用函数转换法，如果存在随机变量x和u的变换关系：u=ϕ(x)，则它们的概率密度函数如下所示：

p(u)|ϕ′(x)|=p(x)

因此，如果从目标分布p(x)中不好采样x，可以构造一个变换u=ϕ(x)，使得从变换后地分布p(u)中采样u比较容易，这样可以通过对u进行采样然后通过反函数来间接得到x。如果是高维空间地随机变量,则ϕ′(x)对应Jacobian行列式。

而且，如果变换关系ϕ(·)是x的累积分布函数的话，则就是我们说的 逆变换采样（Inverse Transform Sampling），我们假设待采样的目标分布的概率密度函数为p(x), 它的累积分布函数为：

640?wx_fmt=png

逆变换采样法的过程：

关注