transformer

最新推荐文章于 2024-06-18 19:37:49 发布

kimjunnoodle

最新推荐文章于 2024-06-18 19:37:49 发布

阅读量725

点赞数

分类专栏： transformer 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kingchenchen2199/article/details/121720512

版权

transformer 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

记录下自己学习transformer学习笔记

Transformer从零详细解读(可能是你见过最通俗易懂的讲解)_哔哩哔哩_bilibili

1.做什么

在在attention is all you need 论文中主要用来进行语句翻译

2.结构

1）编码

第一部分：输入（embedding/位置编码）

embedding作用：

在 embedding 空间中查找最近邻，这可以很好的用于根据用户的兴趣来进行推荐。
作为监督性学习任务的输入。
用于可视化不同离散变量之间的关系。

位置编码

以RNN为例子

注意：RNN中V ,W ,U在O，S，X层公用一套参数

RNN是按照顺序进行编码的；Transformer是同时进行，并没有告知词句的顺序，因此在输入阶段需要进行位置编码。

位置编码的公式：

偶数位置使用sin,奇数则是cos

2)注意力机制

比如婴儿在干嘛

首先进行Q，K点乘（反应两个物体的相似性，越相似其点积的结果越大）,在求加权和。

举个例子

a是相似度，相加为1.

q1=x1·Wq；k1=x1·Wk； v1=x1·Wv；

divide by 8的原因：score值特别大，softmax值很小，容易造成梯度的消息

÷ $\sqrt{dk}$ 是为了保证方差为1。

多头注意力机制：使用的是多套参数。效果好，多套使用使得达到多套空间，可以让transformer可以注意到多个子空间的信息。

残差的作用：缓解了梯度消失的出现

layernormVSBN

为什么Transformer要用LayerNorm？ - 知乎

BN：对所有样本每一个特征都进行

优点

缺点

第一个, batch_size较小的时候，效果差。（均值与方差代替整体）

第二个缺点就是BN在RNN中效果比较差。（RNN是动态的）

语义信息不同的话是不能用同一种

3）解码

需要对当前单词和之后的单词做mask。

在训练的过程我们是看不到后面的词，如果不mask的话预测和训练存在很大不同，影响实验效果。

K，V是encoder，Q是本身。

K，V和Q进行交互。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
transformer

记录下自己学习transformer学习笔记Transformer从零详细解读(可能是你见过最通俗易懂的讲解)_哔哩哔哩_bilibili1.做什么在在attention is all you need 论文中主要用来进行语句翻译2.结构1）编码第一部分：输入（embedding/位置编码）embedding作用：在 embedding 空间中查找最近邻，这可以很好的用于根据用户的兴趣来进行推荐。作为监督性学习任务的输入。用于可视化不同离散变量之间的关系。位置.
复制链接

扫一扫

专栏目录

博客等级

码龄5年

10
原创

2
点赞

20
收藏

2
粉丝

关注

私信

热门文章

分类专栏

transformer 1篇

最新评论

PE-YOLO: Pyramid Enhancement Network for Dark Object Detection
CSDN-Ada助手: 恭喜您撰写第9篇博客！标题“PE-YOLO: Pyramid Enhancement Network for Dark Object Detection”听起来非常吸引人。您对于黑暗物体检测的研究似乎有了令人激动的新进展。我很期待阅读您的研究结果和实验数据。在下一步的创作中，我建议您可以进一步探索和讨论PE-YOLO网络的优势和局限性。您可以尝试比较PE-YOLO与其他类似网络的性能，以便更全面地评估其应用领域和潜力。此外，如果您能分享一些实际应用中的示例和案例研究，将更加丰富和实用。希望我的建议对您有所帮助，期待您未来更多的创作成果！继续努力！
CANet: Class-Agnostic Segmentation Networks with Iterative Refinement and Attentive Few-Shot Learnin
CSDN-Ada助手: 非常感谢用户的持续创作，第6篇博客标题看起来十分专业，内容一定也非常有深度。建议用户可以在接下来的创作中，尽量从读者的角度出发，给出更加易懂的解释和例子，以便更多人能够受益于您的分享。再次感谢用户的分享和努力，期待更多优秀的作品。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
PointRend:Image Segementation as Rendering
CSDN-Ada助手: 恭喜您写出了这篇关于“PointRend:Image Segementation as Rendering”的博客，阐述了这个领域的一些重要信息。我很欣赏您的深入研究和对这个主题的热情。如果可以的话，我希望看到您将更多的注意力放在实践应用上，例如，将这个技术应用到实际场景中，探索其潜在的应用价值。期待您在不久的将来再次分享您的见解。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
Progressive Semantic Segmentation
CSDN-Ada助手: 非常感谢用户分享关于“Progressive Semantic Segmentation”的博客，这篇文章对于深入理解语义分割的进展有很大的帮助。非常欣赏用户的创作精神，持续创作是非常重要的，希望用户能够继续分享更多关于计算机视觉方面的知识，让我们大家都能学到更多。建议用户在下一篇博客中，可以更深入地探讨新的技术或者是与语义分割相关的应用案例，这样可以让读者更好地理解和应用。期待用户的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。