深度学习中独立同分布假设原因？是必要的吗？

最新推荐文章于 2024-04-18 17:28:43 发布

S_o_l_o_n

最新推荐文章于 2024-04-18 17:28:43 发布

阅读量3.9k

点赞数 5

分类专栏：笔记

本文链接：https://blog.csdn.net/S_o_l_o_n/article/details/113917147

版权

笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

独立同分布的假设指的是对于input的features，要求对于不同的采样是服从独立同分布的。那么为什么要这个假设呢？
要明白这个假设的原因，我们需要先了解深度学习的基本原理。深度学习或者说神经网络的基本原理就是用一群基函数去逼近真实的features和target之间的关系。在实变函数中，有一个定理是，我们可以用阶梯函数去逼近任意的可测函数，这个定理给神经网络提供了理论基础，这也是为什么基函数往往是阶梯函数的变形或者引申，比如sigmoid函数就形似阶梯函数，不过其是可导的，这个对于梯度优化方法来说是相当必要的。
因为我们没有对input和target之间的关系做任何的预设，所以只有训练集内范围内的input被训练到的，一旦新的测试集的input或者拿来预测，且新的input值较大偏离了训练集范围，那么模型对这样的input就无能为力了，因为并没有训练到。对于sigmoid基函数，对于训练集范围外的函数近似，两端将是平缓的曲线，自然没有预测能力。
这里要特地说明的是，上述的训练集范围外并不是说没有训练到的样本。举个具体的例子，假设只有一个feature，训练集中feature的值为1 1.1 1.3 1.5 1.7 2.1 … ，该值的范围最小值为1，最大值为3，且在1-3之间分布较为稠密，那么这个训练集外指的是小于1或大于3的值，并不是说1.11111这种虽然不在训练集内但是在范围1-3之间的值，因为训练集在1-3之间分布较为稠密，故这个范围内尽管没有被训练到但是依然被近似了。
因此，为了不让新的预测样本常偏离训练集范围，就提出了独立同分布假设，这个假设可以保证训练集的样本可以代表新的预测样本，只要训练集数据够多，那么预测误差就会够小。这就是独立同分布假设的作用。
那么这个假设是有必要的吗？实际上这个假设是个过于强的假设，现实中很难存在独立同分布的情况。因为我们的目的是为了不让太多的新的预测样本偏离训练样本，为了满足这个目的，首先独立这个假设其实是不必要的，我们可以将其弱化到弱平稳(对于时序而言)，因为弱平稳就可以保证值不会太偏离，不像随机游走那样走到不知道哪里去。
当然那只是理论上，现实中还可以更加弱化，因为我们的目的是为了不让新的预测input过多偏离训练集，那么只要我们的训练集足够大，大到现实中跳出训练集范围外的新的input的概率很小(注意这个范围的定义，上文有说明，不是指现实中每个样本都训练到)，因为现实不同于理论，现实中input的值往往具有范围，这样我们就可以实现范围内都训练到即可，这样我们对分布就不需要做出任何假设，在现实中也同样具有很强的应用性，这实际上也是当前很多应用模型的真实情况。
所以独立同分布在理论上可以弱化，而且在现实中，甚至可以不对input分布做任何的要求。
最后要强调的一点是，预测模型的一个最基本的隐含假设是input和target之间的关系是具有稳定性的，这样我们才可以用历史去预测未来，假如现实中因为某些原因导致这个关系发生了某些结构性的变化，那么我们就需要重新训练模型。

S_o_l_o_n

关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
4
评论
深度学习中独立同分布假设原因？是必要的吗？

独立同分布的假设指的是对于input的features，要求对于不同的采样是服从独立同分布的。那么为什么要这个假设呢？要明白这个假设的原因，我们需要先了解深度学习的基本原理。深度学习或者说神经网络的基本原理就是用一群基函数去逼近真实的features和target之间的关系。在实变函数中，有一个定理是，我们可以用阶梯函数去逼近任意的可测函数，这个定理给神经网络提供了理论基础，这也是为什么基函数往往是阶梯函数的变形或者引申，比如sigmoid函数就形似阶梯函数，不过其是可导的，这个对于梯度优化方法来说是相当
复制链接

扫一扫