目录
2.3 self-attention、RNN、CNN时间复杂度详解
3 权重衰减(weight decay)与学习率衰减(learning rate decay)
7 深度学习中Epoch、Batch以及Batch Size的设定
1 top-1 error 和 top-5 error
2 时间复杂度
2.0 矩阵乘法复杂度分析
总结:
对于矩阵A(n*m),B(m*n), 这里A(n*m)表示A是n行乘m列的矩阵;
如果A*B,那么复杂度为O(n*m*n),即O(n^2m) ;
这里复杂度的前两个维度n m是A矩阵的维度,而后两个维度m n是B矩阵的维度。
2.1 定义及计算方法
总结:
(1)得出运行时间的函数
(2)对函数进行简化
①修改后的函数中,只保留最高阶项
②如果最高阶项存在且不是1,则忽略这个项的系数
2.2 时间复杂度对比
Layer Type | Complexity |
Self-Attention | O( |
Recurrent | O( |
Convolutional | O( |
Self-Attention (restricted) | O( |
2.3 self-attention、RNN、CNN时间复杂度详解
3 权重衰减(weight decay)与学习率衰减(learning rate decay)
作用:
(1)权重衰减(L2正则化)可以避免模型过拟合问题
(2)L1和L2正则化详解
注意:梯度下降的等值线与正则化函数第一次交点(切点)是最优解,因为此时约束项最小
(3)学习率衰减平衡损失不再下降和训练时间延长的矛盾