introduction to deep learning--week1简单线性回归、梯度下降、模型正则化、和深度学习中的优化方法

昌李

于 2019-12-26 16:30:35 发布

阅读量305

点赞数

分类专栏： deep learning笔记

本文链接：https://blog.csdn.net/liyanchang567/article/details/103710247

版权

deep learning笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

进阶课程需要一些基础知识：

1、机器学习基础知识

2、概率论知识

3、线性代数和微积分

4、python编程

我们需要知道的机器学习基础知识：

1、线性回归：均方误差（MSE）、解析解

2、逻辑回归：模型、交叉熵损失、类概率估计

3、线性模型的梯度下降、均方误差（MSE）和交叉熵的求导

4、过拟合问题

5、线性模型的正则化

一、线性回归模型（linear model）

回归任务：收入预测、电影评分等预测结果是真实的数字

分类任务：对象识别、主题分类等预测结果是代无别的结果

线性回归模型：

线性回归模型以及参数：W系数（coefficients）、B偏差（bias），一共d+1个参数，求W参数的方法有以下两种

1、训练模型是均方误差（MSE）最小化的过程

2、W系数也可以通过帽子矩阵来求解，得出W的精确解， $W=\left ( X^{T}*X \right )^{^{-1}}*X^{T}y$

但是对高维数据，求解X转置是很困难的，因此一般使用均方误差（MSE）最小化优化参数

线性分类模型：

二分类问题 $a(x)=sign(w^{T}*x)$

多分类问题 $a(x)=arg \max_{k\in1\rightarrow k } \left\{ w^{T}*x \right \}$

分类问题使用准确率来评价,预测结果与y一致则为正确，否则错误

可以使用softmax继续进行转化测量这些时间之间的概率分布之间的距离

因此我们可以使用交叉熵损失函数，交叉熵只是真实类别的预测类别概率的负对数

二、梯度下降

梯度下降方法适用于均方误差(MSN)和交叉熵损失函数，使用梯度下降过程就是寻找损失函数最小化的过程

梯度下降如何实现参数优化的问题呢（损失函数最小）

t-1次的w参数与学习率和梯度向量的乘积之差仿佛更新参数，直到梯度向量达到结束循环的条件。

在这个过程中涉及到以下几个方面：

1、W参数如何初始化

2、η学习率怎么选取

3、什么时候结束循环

4、如何选取梯度向量去近似逼近

随机梯度下降的方法的原理：

随机梯度下降的特点

1、更新参数的过程中会出现更多的噪音干扰，loss不会是始终持续下降

2、没更新一次参数只需要一个样本

3、可以在在线环境中使用

4、需要谨慎选择学习率η

批量梯度下降（mini-batch gradient descent），每次使用m个样本进行训练

三、模型正则化

1、添加正则项对模型参数进行惩罚,正则项可选择L1、L2

2、数据降维

3、数据增强（data augmentation）

4、dropout

5、Early stopping

6、收集更多的数据

四、深度学习的优化方法：

1、动量（momentum）：动量的引入就是为了加快学习过程，特别是对于高曲率、小但一致的梯度，或者噪声比较大的梯度能够很好的加快学习过程。动量的主要思想是积累了之前梯度指数级衰减的移动平均（前面的指数加权平均），得到加速学习过程的目的。（引用自博客https://blog.csdn.net/u012328159/article/details/80311892）

原理如下：

2、Nesterov Momentum是对Momentum的改进，可以理解为nesterov动量在标准动量方法中添加了一个校正因子。用一张图来形象的对比下momentum和nesterov momentum的区别（引用自https://blog.csdn.net/u012328159/article/details/80311892）

原理如下：

3、AdaGrad：通常，我们在每一次更新参数时，对于所有的参数使用相同的学习率。而AdaGrad算法的思想是：每一次更新参数时（一次迭代），不同的参数使用不同的学习率。（引用自博客https://blog.csdn.net/u012328159/article/details/80311892）

原理如下：

4、RMSprop（root mean square prop）：RMSprop是hinton老爷子在Coursera的《Neural Networks for Machine Learning》lecture6中提出的，这个方法并没有写成论文发表（不由的感叹老爷子的强大。。以前在Coursera上修过这门课，个人感觉不算简单）。同样的，RMSprop也是对Adagrad的扩展，以在非凸的情况下效果更好。和Adadelta一样，RMSprop使用指数加权平均（指数衰减平均）只保留过去给定窗口大小的梯度，使其能够在找到凸碗状结构后快速收敛。直接来看下RMSprop的算法（来自lan goodfellow 《deep learning》（引用自博客https://blog.csdn.net/u012328159/article/details/80311892）

原理如下：

5、Adam（Adaptive Moment Estimation）：Adam实际上是把momentum和RMSprop结合起来的一种算法，算法流程是（摘自adam论文）（引用自博客https://blog.csdn.net/u012328159/article/details/80311892）

昌李

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
introduction to deep learning--week1简单线性回归、梯度下降、模型正则化、和深度学习中的优化方法

进阶课程需要一些基础知识：1、机器学习基础知识2、概率论知识3、线性代数和微积分4、python编程我们需要知道的机器学习基础知识：1、线性回归：均方误差（MSE）、解析解2、逻辑回归：模型、交叉熵损失、类概率估计3、线性模型的梯度下降、均方误差（MSE）和交叉熵的求导4、过拟合问题5、线性模型的正则化一、线性回归模型（linear model）...
复制链接

扫一扫