这是 @小白遇见AI 的第 24 篇推文
应该如何解释神经网络过参数化的现象呢?
当我们尝试用最近的研究来回答这个问题时,我们会发现我们对神经网络的了解比我们想象的要少得多,并且并不理解为什么随机初始化的网络可以像训练有素的网络一样好。
在更标准的机器学习实践中,会通过池化,以尽量减少模型参数的数量,以防止过度拟合,确保真正的学习,而不是死记硬背。另一方面,机器学习工程师只是不断地填充神经网络,使其变得越来越大,并且以某种方式起作用。这违反了常识。
现代神经网络在训练集上达到99.9%甚至100%的准确性并不少见,这通常是警告过度拟合。但是,令人惊讶的是,神经网络可以达到类似的高测试集分数。
关于神经网络为什么不会过拟合的一个常见答案是正则化的作用。不幸的是,事实并非如此-在Zhang等人进行的一项研究中,没有各种正则化方法的Inception架构的性能并没有比具有正则化的体系结构差很多。因此,不能说正则化是泛化的基础。