top-1和top-5 error、时间复杂度、权重衰减和学习率衰减、自监督学习、深度学习Backbone、GPU利用率低而显存占用率高的思考、Epoch、Batch以及Batch Size

目录

1 top-1 error 和 top-5 error

2 时间复杂度

2.0 矩阵乘法复杂度分析

2.1 定义及计算方法

2.2 时间复杂度对比

2.3 self-attention、RNN、CNN时间复杂度详解

3 权重衰减(weight decay)与学习率衰减(learning rate decay)

4 自监督学习

5 深度学习Backbone

6 训练神经网络时,GPU利用率低而显存占用率高的思考

7 深度学习中Epoch、Batch以及Batch Size的设定


top-1 error 和 top-5 error

2 时间复杂度

2.0 矩阵乘法复杂度分析

总结:

对于矩阵A(n*m),B(m*n), 这里A(n*m)表示A是n行乘m列的矩阵;

如果A*B,那么复杂度为O(n*m*n),即O(n^2m) ;

这里复杂度的前两个维度n m是A矩阵的维度,而后两个维度m n是B矩阵的维度。

2.1 定义及计算方法

总结:

(1)得出运行时间的函数

(2)对函数进行简化

修改后的函数中,只保留最高阶项

如果最高阶项存在且不是1,则忽略这个项的系数

2.2 时间复杂度对比

Layer TypeComplexity
Self-AttentionO(n^2d)
RecurrentO(nd^2)
ConvolutionalO(knd^2)
Self-Attention (restricted)O(rnd)

2.3 self-attention、RNN、CNN时间复杂度详解

3 权重衰减(weight decay)与学习率衰减(learning rate decay)

作用:

(1)权重衰减(L2正则化)可以避免模型过拟合问题

(2)L1和L2正则化详解

注意:梯度下降的等值线与正则化函数第一次交点(切点)是最优解,因为此时约束项最小

(3)学习率衰减平衡损失不再下降和训练时间延长的矛盾

4 自监督学习

深度学习Backbone

训练神经网络时,GPU利用率低而显存占用率高的思考

7 深度学习中Epoch、Batch以及Batch Size的设定

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值