李宏毅机器学习P13+P5+6+7+8+9(21版)学习笔记

最新推荐文章于 2024-09-10 00:00:00 发布

笑我有病

最新推荐文章于 2024-09-10 00:00:00 发布

阅读量183

点赞数

文章标签：机器学习深度学习神经网络

本文链接：https://blog.csdn.net/kkkdemon/article/details/120875721

版权

P13深度学习

1.神经网络

由不同的逻辑回归函数（不同权重和偏差）连接而成不同结构

输入层（Input Layer）：1层
隐藏层（Hidden Layer）：N层
输出层（Output Layer）：1层

Fully Connect Feedforward network
Fully Connect：layer1与layer2之间两两都有连接。
传递的方向是单向，由后往前传，所以叫Feedforward。

深度学习能表达出更多情况：

一个神经网络的权重和偏差已知，则可以看作一个函数：输入是向量，输出也是向量。
回归模型和逻辑回归都是定义了一个函数集，给神经网络结构的参数设置为不同的数，
就是不同的函数，结合为函数集，这个函数集较大，是回归模型无法包含的函数。

Deep = Many hidden layer

随着层数变多，错误率降低，随之运算量增大，因此引入矩阵计算加速运算

矩阵计算（激活函数）方法：σ（权重w * 输入+ 偏移量b）= 输出

矩阵运算优点：可以使用GPU加速

本质：通过隐藏层进行特征转换。
特征提取用隐藏层替代原特征工程，最后一个隐藏层输出为新特征（相当于黑箱操作）
把前面的隐藏层的输出当做输入（经过特征提取得到的一组最好的特征），通过一个多分类器得到最后的输出y。

问题

多少层？每层有多少神经元？尝试加上直觉

对于有些机器学习相关的问题，我们一般用特征工程来提取特征，
对于深度学习，我们只需要设计神经网络模型来进行就可以了

结构可以自动确定吗？有很多设计方法可以让机器自动找到神经网络的结构的，如进化人工神经网络，但并不普及

可以设计网络结构吗？可以，比如 CNN卷积神经网络

2.模型评估

对于神经网络，采用交叉熵（cross entropy）函数来对损失进行计算

3.选择最优函数

用梯度下降找最优函数和最优参数

P5 training失败及解决1

gradient为0的点，称为critical point，其中有很多可能，导致无法继续优化

用泰勒级数近似计算鉴别critical point的种类(local minima/maxina/saddle point)

P6 training失败及解决2

Batch:是否采用batch进行训练，训练资料分为N个batch,进行训练。

在large和small batching的testing准确率类似的时候，small batch的testing值更好。

结论：

LB和SB时间在一定size内，差距很小

LB梯度下降更平稳

SB的最优化值更好

SB的Generalization更好

SB易得到Flat Minima(较好)；LB易得到Sharp Minima

Momentum动量:

gradient method+momentum：计算参数θ的时候，g反方向+前一步方向调整参数

优点：每一次迭代，都会更接近最优解。有几率不停留在local minima和maxina，因为不只有g的方向，还有前一步的动量。

缺点：算法稳定性变差，出现了一些震荡。算法也不再保证目标函数单调下降。momentum是外插值。

P7 training失败及解决3

training stuck ≠ small gradient，训练卡住/loss不再下降的时候，并非到达了critical point或者saddle point

自适应学习率：不同参数需要不同的学习率，Adaptive learning rate

RMSProp：在计算parameter dependent部分中σ时，给之前和现在计算的g不同的权重。解决同一参数不用时期需要不同学习率的问题

Adam:RMSProp+Momentum-用得较多：计算θ和σ时，都考虑前一个g

learning rate scheduling学习率η随时间有关:
1.learning rate decay(随时间逐渐下降）
2.warm up（先变大再变小），在统计数据获取的时候，最初不太精准，需要一定时间先变得较为精准，再进行统计数据。

P8 training失败及解决4

Classification as Regression:将种类用数字表示，但若用1，2，3表示，那么既就有亲疏关系，不太好，解决方法是，用向量[0,0,1],[0,1,0]等表示不同分类，这样就可以解决。

Classification: input x output y,使softmax(y)得到y',使y'接近y^【softmax使ynormalize,classification需要的范围】

loss function可以改变training的难度：

Loss of Classification(e=y^- y')的表示方式：Mean Square Error(MSE)，Cross-entropy（win），Minimizing Cross-entropy is equivalent to maximizing likelihood

P9 training失败及解决5

Feature Normalization：使不同的demonsion范围接近。
在training时标准化参数或者加权后的参数，这会造成很大的计算量，因为一个参数的改变会改变全局，实际上，考虑一个big sized的batch进行Normalization比较合适。

在testing的时候，数据不足，未达到batch标准，做Normalization的参数会随数据的增多使用其移动平均数。

笑我有病

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习P13+P5+6+7+8+9(21版)学习笔记

P13深度学习1.神经网络由不同的逻辑回归函数（不同权重和偏差）连接而成不同结构输入层（InputLayer）：1层隐藏层（HiddenLayer）：N层输出层（OutputLayer）：1层FullyConnectFeedforward networkFullyConnect：layer1与layer2之间两两都有连接。传递的方向是单向，由后往前传，所以叫Feedforward。深度学习能表达出更多情况：一个神经网络的权重和偏差已知，则可以看作一个函数：输入是向...
复制链接

扫一扫