深度学习
文章平均质量分 75
RessCris
怕什么真理无穷,进一寸有一寸的欢喜
展开
-
如何计算模型的复杂度(参数量,FLOPs)
全连接层就理解为一个矩阵,矩阵行数,矩阵列数,如考虑bias,则先计算输出向量中一个元素需要多少计算量,首先要做。在训练时计算的均值方差是直接计算,在预测时是用 running mean,running var.对于池化层而言,常用的Max-pooling,Avg-pooling等是不存在参数量的。先计算输出的feature中一个元素需要的计算量。若考虑 bias,则做的加法会多一次。: 输入的channel 数。: 输入的 height。: 输入的 width。: 输入的 width。原创 2024-02-03 00:01:14 · 2220 阅读 · 0 评论 -
书生浦语大模型训练营第一课笔记:全链路开源体系
AI 的研究方向,从专业模型转变为通用模型。上海人工智能实验室的开源历程覆盖了轻量级、中量级、重量级的模型;7B 20B 都是免费开源的,可商用。原创 2024-01-05 19:47:28 · 428 阅读 · 0 评论 -
优化算法 学习记录
优化算法使我们能够继续更新模型参数,并使损失函数的值最小化。优化算法的性能直接影响模型的训练效率。然而,在深度学习中,我们可能希望更慢地降低学习率。凸优化的入门,以及凸目标函数上非常简单的随机梯度下降算法的证明。在AdaGrad算法中,我们允许每个坐标有单独的学习率。目标函数通常是训练数据集中每个样本的损失函数的平均值。我们可以看到,每次迭代的计算代价从梯度下降的。这个动量法似乎不是针对学习率的改变。优化算法本身会根据梯度调节其实际的学习率。的训练样本的损失函数,其中。的目标函数的梯度计算为。原创 2023-12-09 02:59:49 · 117 阅读 · 0 评论