一、线性分类与感知机
1.线性回归:
定义:利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
线性回归要素:训练集、输出数据、模型。
学习过程:
原有二维线性函数的扩展:假设和n个因素相关,则有:
目标是找到超平面参数,使最小。
2.线性二分类问题:
定义:线性分类器则透过特征的线性组合来做出分类决定,以达到此种目的。简言之,样本通过直线(或超平面)可分。
线性分类器的输入:特征向量。
线性分类器的输出:哪一类。如果是二分类问题,则为0和1,或者是属于某类的概率,即0-1之间的数。
线性分类与线性回归的差别:
(1)输出意义不同:属于某类的概率 -- 回归具体值;
(2)参数意义不同:最佳分类直线 -- 最佳集合曲线
(3)纬度不同:一个是n维的回归,一个是二维的分类
值的变换:代入直线方程的值,因为最终需要概率,结果在0- 1之间,因此需要对值做一个变换:
其中,
该函数称作Sigmoid函数。
求解 :由于J变成了非线性,因此采用迭代的方法让,即
3.对数回归与多分类回归:
Softmax:
4.神经元模型
相关模型:生物神经网络 -- 生物神经元 -- 生物神经元(Spiking模型)-- 生物神经元(Integrate-and-fire模型) -- 人工神经元模型(M-P模型) -- 单神经元模型
作用函数:
(1)非对称型Sigmoid函数(Log Sigmoid)
(2)对称型Sigmoid函数(Tangent Sigmoid)
(3)对称型阶跃函数
5.感知机模型:
感知机原理:感知机(Perceptron)是1957年,由Rosenblatt提出,是神经网络和支持向量机的基础。感知机用于解决线性分类问题,如下图所示:
感知机模型:
从输入到输出的模型: 其中sign为符号函数
定义损失函数如下:
二、BP网络
1.多层感知机
背景:针对线性不可分问题(无法进行线性分类。Minsky 1969年提出)
多层感知机:在输入和输出层间加一或多层隐单元,构成多层感知器(多层前馈神经网络),以解决线性不可分问题。
三层感知机可识别任一凸多边形或无界的凸区域,更多层感知器网络,可识别更为复杂的图形。
多层感知器网络,有如下定理:
定理1:若隐层节点(单元)可任意设置,用三层阈值节点的 网络,可以实现任意的二值逻辑函数。
定理2:若隐层节点(单元)可任意设置,用三层S型非线性特 性节点的网络,可以一致逼近紧集上的连续函数或按 范数逼近紧 集上的平方可积函数。
2.多层前馈网络及BP算法概述
BP算法简介:多层前馈网络的反向传播 (BP)学习算法,简称BP算法,是有导师的学习,它是梯度下降法在多层前馈网中的应用。
BP神经网络结构:见图,u、y是网络的输入、输出向量,神经元用节点表 示,网络由输入层、隐层和输出层节点组成,隐层可一层,也可多 层(图中是单隐层),前层至后层节点通过权联接。由于用BP学习 算法,所以常称BP神经网络。
BP算法简述:BP学习算法由正向传播和反向传播组成,
① 正向传播是输入信号从输入层经隐层,传向输出层,若输出层得到了期望的输出,则学习算法结束;否则,转至反向传播。
② 反向传播是将误差(样本输出与网络输出之差)按原联接通路反向计算,由梯度下降法调整各层节点的权值和阈值,使误差减小。
3.BP算法详解
BP算法基本思想:网络训练的目的,是使对每一个输入样本,调整网络参数,使输出均方误差最小化,这是一个最优化问题。
BP算法的基本流程:
4.BP算法评述
优点:学习完全自主;可逼近任意非线性函数
缺点:算法非全局收敛;收敛速度慢;学习速率的选择;神经网络如何设计(几层?节点数?)
三、性能优化
1.动量法
问题引出:SGD问题:病态曲率
如果把原始的 SGD 想象成一个纸团在重力作用向下滚动,由于质量小受到山壁弹力的干扰大,导致来回震荡;或者在鞍点处因为质量小速度很快减为 0,导致无法离开这块平地。动量方法相当于把纸团换成了铁球;不容易受到外力的干扰,轨迹更加稳定;同时因为在鞍点处因为惯性的作用,更有可能离开平地 。
使用动量的随机梯度下降算法逻辑:
2.自适应梯度算法
Adaptive Gradient:自适应梯度
参数自适应变化:具有较大偏导的参数相应有一个较大的学习率,而具有小偏导的参数则对应一个较小的学习率 。具体来说,每个参数的学习率会缩放各参数反比于其历史梯度平方值总和的平方根。
AdaGrad算法:
AdaGrad问题:学习率是单调递减的,训练后期学习率过小会导致训练困难,甚至提前结束,且需要设置一个全局的初始学习率。
RMSProp算法:
(1)RMSProp 解决 AdaGrad 方法中学习率过度衰减的问题;
(2)RMSProp 使用指数衰减平均以丢弃遥远的历史,使其能够快速收敛;此外,RMSProp 还加入了超参数 𝜌 控制衰减速率。
Adam算法 :
(1)Adam 在 RMSProp 方法的基础上更进一步:除了加入历史梯度平方的指数衰减平均(𝑟)外, 还保留了历史梯度的指数衰减平均(𝑠),相当于动量。
(2)Adam 行为就像一个带有摩擦力的小球,在误差面上倾向于平坦的极小值。