1 NN
1.1 学习的本质
本质:将变体拆分成因素和知识
变体(variation):同类事物的不同形态
因素(factor)
1.2 NN为何高效?
两大原因:
(1)分布式表示(distributed representation)
(2)组合(compositionality)
总:并行的先验,使模型可用线性数量的样本学习指数数量的变体
1.3 NN不适用什么问题?
自然界固有的两大先验知识:并行、迭代
并行:新状态由旧状态并行组合形成
迭代:新状态由已形成状态迭代形成
总:NN不适用于不满足并行、迭代两大先验的问题
非函数:需要想办法将问题转化。
非迭代(非结构):该层状态不是由上层状态构成的任务
(如:很深的CNN因为有max pooling,信息会逐渐丢失。而res-net再次使迭代的先验满足)
SNN:Shallow Neural Network,浅层神经网络
DNN:Deep Neural Network,深度神经网络
2 SNN能拟合任何函数
2.1 NN的作用
学习一个f的近似f*,拟合输入x和输出y
2.2 拟合函数f*的本质
f *本质上是逐段线性函数,在由K个神经元定义的空间中
一个神经元一段
限制f是Lipschitz(利普希茨)函数的目的:保证 f* 的光滑性
输出的变化≤输入的变化
2.3 近似f要多少神经元?
f 本质上是逐段线性函数,在K个神经元定义的空间中,求K
|| f(x1) - f(x2) || ≤ L || x1 - x2 ||,max| f(x1) - f(x2) | ≤ e
|| f(x1) - f(x2) || ≤ L || x1 - x2 || ≤ e
令error= || f(x1) - f(x2) || ,l = || x1 - x2 ||
则 error ≤ l × L ≤ e
从 error ≤ l × L ≤ e
得到 l ≤ e/L,所以定义在[0,1]上的函数,被分为L/e份,每份长度为 e/L
一条绿线可以由2个ReLU神经元合成