Q:为什么样本要添加噪声?
A:因为害怕过拟合。神经网络的表征能力是很强的,容易陷入过拟合。
数据集只能代表真实数据分布的局部情况,除非数据集无限大(连续分布)或者包含所有可能的数据(离散分布),否则网络不能完全学习到数据的真实分布,所以不能完全覆盖到真实的所有数据分布,即过拟合到局部优化点。此时,数据扩增成为增加数据集的多样性的一个方法,也就能扩大网络拟合数据真实分布的能力,尽可能减小经验风险,增加泛化性能,从而在未见过的测试集上表现更好。而数据扩增的一个简单方式就是对已有的数据进行扰动加噪。参考来源请点击
参考链接:
MLP多层感知机(人工神经网络)原理及代码实现