深度学习好文记录,反复学习

recent update time:2024.3.23

https://zhuanlan.zhihu.com/p/363645881 batch size和learning rate的关系,阐述的很好

深度学习入门 - 知乎、这本书也很好,作者写的专栏不错。入坑作:关于反向传播的讲解。

深度学习调参技巧总结-CSDN博客 这人有点猛

机器学习,深度学习一些好文_一只菜得不行的鸟的博客-CSDN博客

卷积神经网络学习路线(五)| 卷积神经网络参数设置,提高泛化能力?_"eval_type\":\"pr"-CSDN博客

一文读懂官方给出torch.nn.RNN API的参数及手写RNN API复现_nn.rnn参数-CSDN博客

关于BN折叠的问题

使用Batch Normalization折叠来加速模型推理-CSDN博客

BN层和前一层(Conv,Linear)

通常,在batch normalization层之前的层中是没有bias的,因为这是无用的,也是对参数的浪费,因为任何常数都会被batch normalization抵消掉。

在深度神经网络中,有时在 Batch Normalization 层之前的线性层(例如全连接层或卷积层)会被设计为没有偏置(bias)。这样的设计是有一些原因的,尤其是在使用 Batch Normalization 时:

Batch Normalization的效果: Batch Normalization 在其操作中包含了均值的减去和方差的除以等操作,这些操作本身具有平移和缩放的效果。如果在 Batch Normalization 层之前加上了偏置,它的作用在某种程度上会被 Batch Normalization 的操作所抵消,从而可能减弱 Batch Normalization 的效果。

BN

标准化与归一化_标准化和归一化_Weber77的博客-CSDN博客

深入理解BatchNorm的原理、代码实现以及BN在CNN中的应用-CSDN博客

ML领域更常使用标准化,如果数据不为稳定,存在极端的最大最小值,不要用归一化。z值归一化=标准化

BN可以省去dropout,L1, L2等正则化处理方法.

CrossEntopyLoss

【Pytorch基础】torch.nn.CrossEntropyLoss损失函数介绍_一穷二白到年薪百万的博客-CSDN博客用法:注意,传入的input必须是(batch_size, num_classes),targets必须是(batch_size)。

loss = nn.CrossEntropyLoss()(y_pred, y_)
or
criterion = nn.CrossEntropyLoss().to(device)
loss = criterion(y_pred, y_)

Loss设计:深度学习的多个loss如何平衡? - 知乎

让核心故事更完整

这人写的都不错:

Transformer 相关理解(上)_向量内积 相似性-CSDN博客

知识蒸馏:

【经典简读】知识蒸馏(Knowledge Distillation) 经典之作 - 知乎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值