shallow的network已经可以fit any function,deep的有什么优势
deep的network和shallow训练出来的有什么不同
1. can shallow network fit any function?
用神经网络去拟合一个L-lipschitz的函数,使得最大的差值error小于epsilon,需要分L/epsilon个segment,需要L/epsilon个神经元拟合
因此对于任何L-lipschitz的函数都可以用一层hidden layer的reLU去fit