Fibre1213-CSDN博客

原创 Attention Is All You Need要点

要点内容：Transformer，这是一种避免使用循环的模型架构，完全依赖于注意机制来绘制输入和输出之间的全局依赖关系。Transformer允许更显著的并行化。Transformer是第一个完全依赖于self-attetion来计算其输入和输出表示而不使用序列对齐的RNN或卷积的转换模型。模型结构。

2024-12-27 08:02:00 1807

原创 Deep Residual Learning for Image Recognition要点

在上面的普通网络的基础上，我们插入快捷方式连接（图3，右），将网络变成其对应的残差版本。当输入和输出的尺寸相同时，可以直接使用标识快捷方式（等式（1））（图3中的实线快捷方式）。当维度增加时（图3中的虚线快捷方式），我们考虑两个选项：（A）快捷方式仍然执行恒等映射，并为增加维度填充了额外的零项填充。如果可以将添加的层构造为标识映射，则较深的模型应具有的训练误差不大于其较浅的模型的训练误差。通过残差学习的重构，如果恒等映射是最佳的，则求解器可以简单地将多个非线性层的权重趋近于零来逼近恒等映射。

2024-12-27 06:58:37 346