机器学习笔记1_J

神经网络模型训练笔记

在李宏毅老师的课程中,笔记如下:
训练模型会出现梯度不在下降的问题,但多有可能不是最低值引起的,而是critical point ,包括鞍点和最低点,;另外,在梯度左右晃动时,可能是出现在了峡谷里,而且learning rate设置不太妥当,导致。
overfitting一般是由于模型弹性较大,而数据较少引起的,观察的方式比较train data的loss和test data的loss,如果trainloss下降而testloss上升,则说明是overfitting了,可以采取增加数据集或者改变模型架构,比如self——attention换成CNN,full-connect 换成self-attention
在模型中activation、pool功能是采取固定的模板对数据处理,所以,只要指定数据处理方式,不需要机器学习任何参数就可以完成,sigmoid函数是曲线在0,1直接,relu函数是半直线,在0,max之间,gradient=1,pool是为了减少数据特征,一般有maxpool、average pool,它的理解是删去了部分行和列,仍保持数据的重要特征(如果机器性能好的话,pooling过程可以不必进行)
CNN模型:一般用于图像处理,将数据每个维度分为perspective field,利用kenneral size,提取主要的特征,channel的维度与图像数据保持一致,filter的数量是卷积后的channel size。比如,一个彩色图像是663维的Tensor,通过第一个卷积,设计卷积核为33,filter数量为64,filter的维度是333,卷积后的hiddenlayer维度是55*64。可以理解为CNN是self-attention的简化版,因为他不是考虑整张图片的信息,知识考虑一个field里面的信息得到Tensor。
self-attention:考虑前后的信息,一般可以用于文本处理任务。多数情况下比RNN效果要好。
optimize:一般是选用Adam、SGDM,其中,Adam速度快,但可能不稳定,SGDM收敛慢,但一般比较稳定,文本语言、翻译、语音一般是用Adam,图像是选用SGDM。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值