Transformer的代码实现 day04（FFN）

最新推荐文章于 2024-06-01 19:24:18 发布

丿罗小黑

最新推荐文章于 2024-06-01 19:24:18 发布

阅读量365

点赞数 8

分类专栏： Transformer 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011453680/article/details/137344657

版权

Transformer 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

前馈神经网络（FFN）

几个线性层、激活函数、归一化层的叠加
- 注意：归一化是在保持数据分布的前提下，将数据缩放到特定范围，方便运算。
- 注意：标准化是让不同特征的数据保持相似的尺度，但是会改变数据的分布。

前馈神经网络的代码

class PositionWiseFeedForward(nn.Module):

    """
    w2(relu(w1(layer_norm(x))+b1))+b2
    """

    def __init__(self, d_model, d_ff, dropout=0.1):
        super(PositionWiseFeedForward, self).__init__()
        # nn.Linear是一个全连接层，它接受一个输入特征维度和一个输出特征维度作为参数。
        self.w_1 = nn.Linear(d_model, d_ff)
        self.w_2 = nn.Linear(d_ff, d_model)
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)
        self.dropout_1 = nn.Dropout(dropout)
        self.relu = nn.ReLU()
        self.dropout_2 = nn.Dropout(dropout)

    def forward(self, x):
        inter = self.dropout_1(self.relu(self.w_1(self.layer_norm(x))))
        output = self.dropout_2(self.w_2(inter))
        return output

参考文献

05 Transformer 中的前馈神经网络（FFN）的实现

关注

8
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Transformer的代码实现 day04（FFN）

【代码】Transformer的代码实现 day04（FFN）
复制链接

扫一扫

专栏目录

丿罗小黑 CSDN认证博客专家 CSDN认证企业博客

码龄11年

南京信息工程大学

180: 原创

2万+: 周排名

1万+: 总排名

9万+: 访问

: 等级

2545: 积分

589: 粉丝

713: 获赞

18: 评论

627: 收藏

私信

关注

热门文章

分类专栏

文字检测&识别 11篇
Ubuntu 6篇
Pytorch 17篇
操作系统 18篇
机器学习 39篇
Transformer 16篇
Python 11篇
Java 62篇

最新评论

java基础学习 day40（子类可以继承父类的哪些内容，虚方法）
a346076818: 误导人.
场景文本检测&识别学习 day09（Swin Transformer论文精读）
是Yu欸: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
场景文本检测&识别学习 day06（Vi-Transformer论文精读、MAE论文阅读）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
我的创作纪念日
是Yu欸: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
Java中静态的main方法为什么可以调用非静态成员变量？方法之间调用局部变量？
找到工作再改名1: 在main方法（或其他方法）内部不能直接定义另一个方法，但是可以在main方法（或其他方法）内部定义一个类，再在类里定义方法。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

丿罗小黑 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。