深度学习
文章平均质量分 73
追影子的蛇
这个作者很懒,什么都没留下…
展开
-
梯度裁剪以避免梯度爆炸
利用梯度裁剪的策略以减少模型训练中的梯度爆炸现象,提供了代码及原理的解释。原创 2024-09-05 20:26:58 · 624 阅读 · 0 评论 -
Pytorch框架之训练中不同阶段使用不同的optimizer
在模型训练的不同阶段使用不同的optimizer,以避免loss爆炸的问题,让模型中后期的训练更稳定。原创 2024-08-09 16:29:23 · 231 阅读 · 0 评论 -
torch中实现depthwise convolution
介绍了depthwise convolution,并且提供了运用torch.nn.functional.conv2d和torch.nn.Conv2d的两种实现方式原创 2023-12-14 17:27:29 · 1636 阅读 · 1 评论 -
CV中的self-attention操作
详细介绍了计算机视觉(CV)中,transformer中的重要模块,self-attention及其各种变体,内容包括数学原理和代码实现及注释原创 2023-08-15 13:01:26 · 118 阅读 · 1 评论 -
交叉熵nn.CrossEntropyLoss()和nn.BCELoss()
简要讲解交叉熵损失的数学基础,并介绍pytorch中torch.nn.CrossEntropyLoss()函数和torch.nn.BCELoss()函数的具体实现原创 2022-10-05 20:27:41 · 1114 阅读 · 0 评论 -
GELU激活函数
补充说明GELU激活函数的证明过程原创 2022-07-09 19:24:06 · 438 阅读 · 0 评论