学习分享:神经网络理论

本文探讨神经网络(NN)的学习本质,解释为何NN在处理某些问题时高效,同时指出其不适用的情况。深入讨论SNN(浅层神经网络)和DNN(深度神经网络)的拟合能力,展示DNN在参数数量相同的情况下能实现更多的线性分割。此外,还分析了梯度、损失面几何、DNN的泛化能力和优化问题。
摘要由CSDN通过智能技术生成

1 NN

1.1 学习的本质

本质:将变体拆分成因素和知识
变体(variation):同类事物的不同形态
因素(factor)

1.2 NN为何高效?

两大原因
(1)分布式表示(distributed representation)
(2)组合(compositionality)
:并行的先验,使模型可用线性数量的样本学习指数数量的变体

1.3 NN不适用什么问题?

自然界固有的两大先验知识:并行、迭代
并行:新状态由旧状态并行组合形成
迭代:新状态由已形成状态迭代形成

:NN不适用于不满足并行、迭代两大先验的问题
非函数:需要想办法将问题转化。
非迭代(非结构):该层状态不是由上层状态构成的任务
(如:很深的CNN因为有max pooling,信息会逐渐丢失。而res-net再次使迭代的先验满足)
SNN:Shallow Neural Network,浅层神经网络
DNN:Deep Neural Network,深度神经网络

2 SNN能拟合任何函数

2.1 NN的作用

学习一个f的近似f*,拟合输入x和输出y

2.2 拟合函数f*的本质

f *本质上是逐段线性函数,在由K个神经元定义的空间中
一个神经元一段
在这里插入图片描述
限制f是Lipschitz(利普希茨)函数的目的:保证 f* 的光滑性
输出的变化≤输入的变化
在这里插入图片描述

2.3 近似f要多少神经元?

f 本质上是逐段线性函数,在K个神经元定义的空间中,求K
在这里插入图片描述
|| f(x1) - f(x2) || ≤ L || x1 - x2 ||,max| f(x1) - f(x2) | ≤ e
|| f(x1) - f(x2) || ≤ L || x1 - x2 || ≤ e
令error= || f(x1) - f(x2) || ,l = || x1 - x2 ||
则 error ≤ l × L ≤ e
在这里插入图片描述
从 error ≤ l × L ≤ e
得到 l ≤ e/L,所以定义在[0,1]上的函数,被分为L/e份,每份长度为 e/L
在这里插入图片描述
一条绿线可以由2个ReLU神经元合成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值