5.1 神经元模型
定义:神经网络是具有适应性的简单单元组成的广泛并行互联的网络,他的组织能够模拟生物神经系统对真实世界所做出的交互反应
5.2 感知机与多层网络
*感知机由两层神经元组成
感知机只能解决a-c的问题,对于异或等非线性问题无法解决。
5.3误差逆传播算法(反向传播算法BP)
那对于训练例(xk,yk)假定输出:
则均方误差为
BP算法基于梯度下降策略,给定一个学习率
根据链式法则
sigmoid函数具有:
根据5.3,5.4就有:
将5.10和5.8式带入到5.7,再带入到5.6,就有BP算法中关于w更新公式:
类似可得到:
学习率控制着算法的每一轮迭代更新,太大容易振荡,太小收敛过慢其中:
BP算法工作流程
其目的在于最小化训练集上的累计误差:
*一般来说,标准BP算法每次更新值针对单个样例,参数更新的很频繁。
累计BP算法直接针对累积误差最小化,他读取完整个训练集之后才对参数进行更新。
BP算法存在过拟合问题,目前也有很多关于这一问题的解决方案。
5.4 全局最小和局部极小5.5 其他常见神经网络
- RBF(径向基函数)网络
- ART(自适应谐振理论)网络
- SOM(自组织映射)网络
- 级联相关网络
- Elman网络(递归神经网络之一)
- Boltzman机
5.6 深度学习
典型的深度学习就是指具有深层的神经网络。也即增加隐层数目
但是增加隐层的数目必然会导致阈值,权值的数目的增加,增加整个网络的学习负担
节省训练开销
权共享:让一组神经元使用相同的连接权。
比如CNN典型的手写数字识别网络