深度学习
文章平均质量分 50
星光技术人
自动驾驶感知算法工程师
展开
-
BatchNorm推理阶段和Conv合并
本文全文来自: https://www.cnblogs.com/xiaxuexiaoab/p/16422640.html。只只作为自己的复习使用,不作他用。原创 2024-10-30 23:29:06 · 325 阅读 · 0 评论 -
transformer死亡9问
序列掩码(sequence mask)在Decoder的自注意力机制中起到了关键作用,用于屏蔽未来的信息,以确保Decoder在生成目标序列时只能依赖于之前生成的词。在计算Transformer的注意力时,对点积注意力进行缩放(scaled)的主要原因是为了稳定训练过程,防止输入数据的范围过大,导致softmax输出的梯度变得非常小,从而影响训练效率和模型性能。使用不同的权重矩阵生成查询和键,使得模型可以在不同的子空间中变换输入,捕捉更丰富和多样的特征,并且避免退化成简单的自相关操作。原创 2024-08-05 15:32:15 · 987 阅读 · 0 评论 -
l1 loss和L2 loss的差异
l1 loss和L2 loss的差异原创 2024-08-03 20:26:13 · 140 阅读 · 0 评论 -
Loss里边出现了nan和inf的原因,为什么会出现nan和inf
Loss里边出现了nan和inf的原因,为什么会出现nan和inf原创 2024-08-03 20:23:29 · 152 阅读 · 0 评论 -
注意力机制
看了沐神讲解的注意力机制,茅塞顿开。但是本人是个新手,理解力也有限,难免理解不到位,还请大家批评指正。1.概念注意力机制就类似人的观察力,当我们要从海量的信息中得到目标信息时,从第一个信息逐个甄别显然耗费精力,一般情况下都会根据目标的某些特征来大致定位,然后有方向性的来寻找。就比如说我们需要在一张图片找到一个人,那么我们肯定不会去看一只蝴蝶。我们会找到照片中的所有的人,然后逐个甄别目标人物,这就是注意力机制。2.概念过度回想CNN的池化层,常见的池化层有平均池化,最值池化等。我们对所有的信息都一视同原创 2021-11-06 16:29:19 · 1761 阅读 · 1 评论