In the mathematical theory of artificial neural networks, the universal approximation theorem states[1] that a feed-forward network with a single hidden layer containing a finite number of neurons can approximate continuous functions on compact subsets of R n R^n Rn, under mild assumptions on the activation function. The theorem thus states that simple neural networks can represent a wide variety of interesting functions when given appropriate parameters; however, it does not touch upon the algorithmic learnability of those parameters.
在维基百科上的解释如下:
在人工神经网络(ANN)的数学理论当中,假设激活函数足够柔和的情况下,通用相似定理是指在神经元个数足够的情况下和通过单层的前馈神经网络能够近似逼近任意一个在紧子集
R
n
R^n
Rn上的连续函数。
在这里under mlid assumptions on the activation function里面的mlid assumptions具体的含义不是很清楚。
此外,compact subsets of R n R^n Rn 表示在 R n R^n Rn上的紧子集。
数学理论就是这个样子,为了解释一个专业术语,要用两个其他的专业术语,然后依次类推术语爆炸。为了解释通用近似定理。需要去了解
compact subsets
和 mlid assumptions
当然,我们大概了解一下通用近似定理表示的含义是什么就可以了。孤岂欲卿治经为数学博士邪?但当涉猎,能敲搬砖尔。
还好后面另外加了一句解释:
通用近似定理表明,当给定通用的参数的时候,简单的神经网络可以表示各种各样的有意思的函数。
通用近似定理告诉我们:采用简单的神经网络可以拟合任意连续函数(因为不理解紧子集的意义,这里我把紧子集去掉了。)
通用,表示神经网络对于所有连续函数的通用性。
近似,表示神经网络采用高度逼近的学习方法拟合得到连续函数的表示。
遗留问题:
通用近似定理为什么在理论上具有通用性?
竟然通用近似定理是在理论上具有通用性,那实际上肯定是不具备通用性的,为什么在实际情况中不具备通用性?
在人工神经网络之上所做出的其他的优化所解决的问题是什么?比如卷积神经网络,再比如attention。