文章目录
1. 概述
神经网络是一种“黑箱模型”,不是因为它无法用数学的方法定义,而是难以以一种非常通俗易懂的方式解释出它的具体操作。在计算机领域只需将它视为包含了多个参数的数学模型,这个模型包含若干个函数组成。神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元模型,即上述定义中的“简单单元”。如果某神经元的电位超过一个阈值,那么它就会被激活,即兴奋起来,向其他神经元发送化学物质。
2. 神经元模型
神经元模型是神经网络中最基本的成分,当神经元超过了某一个”阈值“电位,就会产生”兴奋“,进而会向其他神经元发送化学物质。1943年,有人将上述过程抽象为下图中的简单模型,即”M-P神经元模型“
3. 感知机与多层网络
3.1 感知机
感知机(Perceptron)由两层神经元组成(输入层、输出层),输入层接收外界输入信号后传递给输出层,输出层是M-P神经元,亦称“阈值逻辑单元”(threshold logic unit)。
3.2 多层前馈神经网络
多层网络:包含隐层的网络
前馈网络:神经元之间不存在同层连接也不存在跨层连接
隐层和输出层神经元亦称“功能单元”
4. 误差逆传播算法(BP算法)
4.1 BP算法具体推导
4.2 标准BP算法和累积BP算法
标准BP算法
每次针对单个训练样例更新权值与阈值
参数更新频繁,不同样例可以抵消,需要多次迭代
累计BP算法
其优化目标是最小化整个训练集上的累计误差
读取整个训练集一遍才对参数进行更新,参数更新频率较低
在很多任务中,累计误差下降到一定程度后,进一步下降会非常缓慢,这是标准BP算法往往会获得较好的解,尤其当训练集非常大时效果更明显。
4.3 BP神经网络过拟合
主要策略
早停
若训练误差连续a轮的变化小于b,则停止训练
使用验证集:若训练误差降低,验证误差升高,则停止训练
正则化
在误差目标函数找那个增加一项描述网络复杂度
偏好比较小的连接权和阈值,使网络输出更“光滑
4.4 全局最小和局部最小
神经网络的训练过程可看作一个参数寻优过程:
在参数空间中,寻找一组最优参数使得误差最小
特点
存在多个“局部极小”
只有一个“全局最小”