5 神经网络
5.1 神经元模型
- 定义:由具有适应性的简单单元组成的广泛并行互联的网络
- 模型的嵌套和互联——模拟生物神经系统
- 神经网络中的最基本的成分是神经元模型,它的状态由激活和阈值和权值三个概念来决定
- 每个神经元:连接权重、阈值、激活
- 单层感知器和激活函数
- 阶跃函数
- 改进:想要连续的、光滑的
- sigmoid函数: f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+e−x1;
- tanh双曲正切函数: e x − e − x e x + x − x \frac{e^x-e{-x}}{e^x+x^{-x}} ex+x−xex−e−x;tanh的导数就是 1 − tanh 2 x 1-\tanh^2x 1−tanh2x;
- 不饱和非线性激活函数ReLus函数: max { 0 , x } \max\{0,x\} max{0,x};
- softplus函数: log ( e x + 1 ) \log(e^x+1) log(ex+1);
- 后两个方便过滤噪声
- 亦或问题、与非概念
- 多层的隐单元结构
5.2 感知机与多层网络
- 多层前馈神经网络——目的是推广线性模型
y ( x , w ) = f ( ∑ j = 0 M w j ϕ j ( x ) ) y(x,w)=f\Big(\sum_{j=0}^Mw_j\phi_j(x)\Big) y(x,w)=f(j=0∑Mwjϕj(x))- 输入——隐藏——输出
- 输入和阈值共同作用与输出
- 主要作用是建立一个结构——核心但是没有被解决的问题
- 线性可分是收敛的
- BP算法
- 多维输入与多维输出
- w的调整是从后往前来调整的,从错误开始调整
- 与线性模型的最大差别在于损失函数的定义不同
5.3 误差逆传播算法
神经网络中误差反向传播(back propagation)算法的工作原理
标准BP算法与累积BP算法(用到随机梯度下降)
5.4 全局最小与局部最小
- 多组不同参数值初始化多个神经网络选最小
- 模拟退火技术、遗传算法——统计计算
- 随机梯度下降
5.5 其他常见神经网络
竞争型学习SOM网络自组织映射
竞争学习算法
竞争输出一个获胜的(最优的)
向量归一化
竞争层——输入层
k-means的一个再现版本
所有的学习过程都是有序的,所以初始值很重要
SOM(用竞争学习做无监督的聚类)的优缺点:
- 输入层
- 全连接(权值矩阵)
- 输出层(特征映射)
- 扩展了——优胜邻域(侧抑制——临近的神经元相互激励、较远的就相互抑制)
- SOM解决旅行商问题——已知一个比较短的不完全遍历的闭环,每个点邻域的点可以连通激活,所以问题在于邻域包含哪些神经元——但是没有全局最优解,可以有局部最优解
径向基模型RBF网络
隐藏层一共有M个分布
看样本x属于哪个分布的概率是多少
f
k
(
x
)
=
∑
j
=
1
M
w
k
j
ϕ
(
x
,
μ
j
)
,
k
=
1
,
.
.
.
,
K
f_k(x) = \sum_{j=1}^Mw_{kj}\phi(x,\mu_j),k=1,...,K
fk(x)=j=1∑Mwkjϕ(x,μj),k=1,...,K
常用高斯径向基函数
ϕ
(
x
,
μ
j
)
=
d
−
∣
∣
x
−
μ
j
∣
∣
2
2
σ
j
2
\phi(x,\mu_j)=d^{-\frac{||x-\mu_j||^2}{2\sigma_j^2}}
ϕ(x,μj)=d−2σj2∣∣x−μj∣∣2
其中
(
M
,
{
w
k
j
}
K
×
M
,
μ
j
,
σ
j
)
(M,\{w_{kj}\}_{K×M},\mu_j,\sigma_j)
(M,{wkj}K×M,μj,σj)是参数