神经网络与深度学习(笔记一)

本文介绍了线性回归的基本原理,包括模型定义、损失函数和求解方法。接着讨论了线性分类,特别是二分类问题的解决策略。文章还涵盖了神经元模型和多层感知机的概念,以及反向传播(BP)算法在权重调整中的应用。最后,讨论了优化算法,如随机梯度下降及其变种,包括动量法、自适应梯度算法(如AdaGrad、RMSProp和Adam),这些算法解决了训练过程中的收敛问题。
摘要由CSDN通过智能技术生成

一、线性回归

定义

回归(regression)是能为⼀个或多个⾃变量与因变量之间关系建模的⼀类⽅法。在⾃然科学和社会科学领 域,回归经常⽤来表⽰输⼊和输出之间的关系。 线性回 归基于几个简单的假设:⾸先,假设⾃变量x和因变量y之间的关系是线性的,即y可以表示为x中元素的加权 和,这⾥通常允许包含观测值的⼀些噪声;其次,假设任何噪声都⽐较正常,如噪声遵循正态分布。 目标可以表示为特征的加权和,即

转换为矩阵形式

求解

在求解之前,定义模型拟合的度量——损失函数

为了度量模型 在整个数据集上的质量,需计算在训练集n个样本上的损失均值(也等价于求和)

求解的过程即是寻找⼀组参数(w∗ , b∗),以最小化在所有训练样本上的总损失。 线性回归的参数优化较为简单,模型参数具有解析解。

⾸先,将偏置b合并到参数w中,合并⽅法是在包含所有参数的矩阵中附加⼀列。预测问题是最小化。这在损失平⾯上只有 ⼀个临界点,这个临界点对应于整个区域的损失极⼩点。将损失关于w的导数设为0,得到解析解:

二、线性分类

定义

线性分类器透过特征的线性组合来做出分类决定,以达到 此种目的。简言之,样本通过直线(或超平面)可分 。

线性分类器输入为特征向量 ,输出为类别信息。线性分类与线性回归的不同之处在于输出意义不同,前者输出属于某类的概率,后者输出回归具体值,参数意义不同,前者在于得到最佳分类直线,后者在于得到最佳拟合直线,以及维度的不同。

求解

以二分类为例,同时给定样本,其中只能取0或1。构造误差函数如下

其中,

优化目标为寻找最佳超平面参数,使误差函数最小。

梯度下降法

由于具有非线性,因而考虑迭代法使得逐渐趋近于0,即

其中,

多分类回归

k分类的分类函数为

其中,

误差函数(交叉熵损失)取为

简写为,

对应的梯度为

这种回归方式又被称为Softmax回归。

三、神经元模型

人工神经元模型

激活函数

非对称型Sigmoid函数

对称型Sigmoid函数

对称型阶跃函数 (阈值逻辑单元)

四、多层感知机

结构

在线性模型中加⼊⼀个或多个隐藏层来克服线性模型的限制,使其能处理更普遍的函数关系类型。将许多全连接层堆叠在⼀起。每⼀层都输出到上⾯的层,直到⽣成最后的输 出。把前L−1层看作表⽰,把最后⼀层看作线性预测器。这种架构通常称为多层感知机 (multilayer perceptron, MLP) ,如下图所示。

这个多层感知机有4个输⼊,3个输出,其隐藏层包含5个隐藏单元。输⼊层不涉及任何计算,因此使⽤此⽹络 产⽣输出只需要实现隐藏层和输出层的计算。因此,这个多层感知机中的层数为,2为全连 接的。每个输⼊都会影响隐藏层中的每个神经元,⽽隐藏层中的每个神经元⼜会影响输出层中的每个神经元。

计算规则

通过矩阵 来表示n个样本的⼩批量,其中每个样本具有d个输⼊特征。对于具有h个隐藏单元的单隐藏层多层感知机,⽤表⽰隐藏层的输出,称为隐藏表示。因为隐藏层和输出层都是全连接的,所以隐藏层权重 和隐藏层偏置 以及输出层权重 和输出层偏置。单隐藏层多层感知机 的输出

五、BP算法

组成

正向传播:输入信号从输入层经隐层,传 向输出层,若输出层得到了期望的输出, 则学习算法结束;否则,转至反向传播。 反向传播:将误差(样本输出与网络输出 之差)按原联接通路反向计算,由梯度下 降法调整各层节点的权值和阈值,使误差 减小。

基本思想

  1. 设置初始权系数为较小的随机非零值;

  1. 给定输入/输出样本对,计算网络输出, 完成前向传播;

  1. 计算目标函数J。如 , 训练成功,退出;否则转入 4

  1. 反向传播计算 由输出层,按梯度下降法将误差反向传播,逐 层调整权值 。

计算规则

考虑迭代算法,设初始权值为, k时刻权值为, 则使用泰勒级数 展开,有

目标为选择合适的 使得J最小,下面以三层神经网络为例。

前向传播

第l层第i个神经元 (隐藏层)的输出为

只有一层隐藏层时,输出为

误差,第i个误差为,需要计算的项为

误差反传——输出层

根据链式求导法则

进一步,

误差反传——隐含层

从而,

总结

从输出层出发,有

对于隐含层有,

更新方式为

其中,

六、优化算法

随机梯度下降

病态曲率:上图为损失函数轮廓。在进入以蓝色 标记的山沟状区域之前随机开始。 颜色实际上表示损失函数在特定点 处的值有多大,红色表示最大值, 蓝色表示最小值。我们想要达到最 小值点,为此但需要我们穿过山沟 。这个区域就是所谓的病态曲率。

为解决上述问题,提出了动量法,算法描述如下

在进行参数更新的时候会将之前的速度考虑进来,保留之前更新的方向,利用当前梯度微调最终更新方向。

自适应梯度

特点

  1. 参数自适应变化:具有较大偏导的参数相应有一个较大的学习 率,而具有小偏导的参数则对应一个较小的学习率 。每个参数的学习率会缩放各参数反比于其历史梯度 平方值总和的平方根。

  1. 学习率是单调递减的,训练后期学习率过小会导致训练困难, 甚至提前结束 。

  1. 需要设置一个全局的初始学习率。

算法描述

RMSProp

特点

解决 AdaGrad 方法中学习率过度衰减的问题,使用指数衰减平均以丢弃遥远的历史,使其能够快 速收敛;此外,RMSProp 还加入了超参数 𝜌 控制衰减速率 。

算法描述

Adam

特点

Adam 在 RMSProp 方法的基础上更进一步, 除了加入历史梯度平方的指数衰减平均(𝑟)外, 还保留了历史梯度的指数衰减平均(𝑠),相当于动量。

算法描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值