李宏毅机器学习笔记:深度学习网络设计技巧

  • 源视频链接:https://www.bilibili.com/video/BV11K4y1S7AD?p=5

学习笔记总结

  • 1 当损失函数随着参数更新而没有下降或者误差仍然很大,如下图,一般表示一阶偏微分梯度向量等于0,此时可通过二阶偏微分矩阵H来判断此时是否处于saddle pint; 随后可采取一个不常用的方法(因计算量大而不常用) ,在原有参数上加上对应的H矩阵负特征值对应的特征向量,从而逃离saddle point 继续降低损失函数值。低维下找不到路径优化的损失函数放到高维空间也许很容易找到下降路径。

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 2 batch size
    是一次选取纳入训练的样本数,每读取依次batch size 计算一次梯度来更新参数,再读取下一个batch样本接着计算梯度更新参数,依次迭代; 一个epoch 是读取完一次所有batch; 有无并行运算决定了单次运行batch size的计算速度,通常来说 越小batch size训练出来的模型效果越好,但计算时间越长,而越大的batch size则计算速度更快。
    在这里插入图片描述
    在这里插入图片描述
  • 3 趋势项
    类似于物理世界中的惯性,在传统梯度下降方法中加入趋势项,从而赋予梯度下降法逃离saddle point 局部最优解的能力,具体见下图,每一次更新权重时加入上一次参数变化move向量,梯度向量和move向量两者合成出新的参数更新向量
    在这里插入图片描述
    在这里插入图片描述
  • 4 自适应学习率
    平方根法则 或RMSprop来根据计算的梯度大小来自适应调整学习率,结合预先制定的学习率变化策略和趋势变化项 从而更好完成梯度下降(Adagrad方法则是实现不同参数应用不同学习率,避免一种学习率适用于全部参数)在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述
  • 5 批标准化
    对网络输入层和隐藏层输出做归一化处理,能让训练速度更快收敛

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 6 回归转化为多分类
    利用softmax激活函数将回归值应用到多分类问题,一般会默认使用交叉熵作为损失函数来更新参数
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值