参数量>>数据量 过参数化
限制条件没法完全限制住参数,多解
神经网络为什么好,应用的数据 图片、语言、文字这些数据很有价值
训练过程似乎遵循某些基本原则,叫“隐式正则化 ” 隐式偏向(人的意识里)
为什么偏向先学习低频?
ReLU关于ξ^2衰减
函数积分后更光滑;光滑则衰减更快;频率空间和时域空间无法同时精确
光滑性就是看能否求导、是否连续
激活函数 在傅里叶空间 单调衰减、和神经网络在傅里叶空间具有某种单调性 是一致的。
二次函数*高斯函数
震荡越厉害,高频越多
加速高频的收敛
以两层神经网络为例:
连续化以后 相对于考虑这两个函数的二范数