transform算法详解

最新推荐文章于 2024-08-01 16:37:11 发布

a3188045002

最新推荐文章于 2024-08-01 16:37:11 发布

阅读量355

点赞数 3

文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a3188045002/article/details/139338899

版权

一，文本输入处理

1.词向量

在pytorch中，将输入的文本序列变成一个词向量采用embedding algorithm算法，就是将一个词映射到一个多维的空间，一般是256或512维。输入序列的长度要根据实际情况而定，选择一个合适的序列长度，当输入序列的长度不满足时，要进行0填充，当输入序列过长时，要进行截断的操作。

2.位置编码

输入的序列不采用位置编码的时候，当改变输入文本序列的位置时，相同的词在不同的位置时表达的效果是一样的，这显然不符合我们的直觉，所以我们得采用位置编码。下面的两张图分别时不带入位置编码和带入位置编码的效果图：

二，编码器

编码器的部分就是将输入的文本序列处理成一个向量序列，这个部分主要包括一个self-attention层和Feed Forward层。

1.self-attention

这个层主要是判断输入序列中相关联的词联系在一起，还能联系上下语义来进行训练。

2. 多头注意力机制

这个是对self-attention的进一步拓展，它能使模型去关注更多东西主要有两个方面，第一是它扩展了模型关注不同位置的能力。第二，多头注意力机制赋予了attention层多个“子表示空间”。

3.残差连接

残差连接其实就是将处理好的序列与未处理的序列相加，解决深层神经网络训练过程中的梯度消失或梯度爆炸等问题。

三，解码器

解码器一般有多个层，它是将编码层得到的注意力序列翻译，得到最后的翻译结果。在序列到序列（Sequence-to-Sequence）模型中，解码器是负责将编码器得到的上下文信息转换为目标序列的关键组件之一。通常，解码器由多个层组成，每一层都包含若干个注意力机制。

四，线性层和softmax层

线性层和softmax层一般放在一起使用，它的作用是将输出的序列转化成每个词的概率，用于输出结果

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

a3188045002 CSDN认证博客专家 CSDN认证企业博客

码龄2年

14: 原创

135万+: 周排名

10万+: 总排名

9671: 访问

: 等级

277: 积分

99: 粉丝

136: 获赞

5: 评论

155: 收藏

私信

关注

热门文章

最新评论

DCGAN图片生成
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
yolov5的common.py文件的解读
CSDN-Ada助手: 恭喜您发布了关于yolov5的common.py文件的解读的博客！这篇文章对于理解yolov5的工作原理和代码实现肯定有很大帮助。希望您能继续保持对技术的热情和创作的动力，为更多的读者带来有价值的内容。接下来，或许您可以考虑深入探讨yolov5的其他关键文件或者结合实际案例进行分析，让读者更好地理解和应用这一技术。期待您的下一篇精彩内容！
Yolov8的安装及初步使用
CSDN-Ada助手: 恭喜您写出了第6篇博客《Yolov8的安装及初步使用》，内容丰富，让读者受益匪浅。继续保持创作的热情和勤奋，相信您的博客会越来越受欢迎。接下来，建议您可以深入探讨Yolov8的优缺点、应用场景等方面的内容，让读者更全面地了解这个主题。期待您更多精彩的作品！
使用stm32的hal库完成接受不定长的数据
CSDN-Ada助手: 恭喜你写了这篇关于使用STM32的HAL库完成接收不定长数据的博客！不定长数据的处理确实是一个很有挑战性的问题，而你用HAL库成功解决了这个问题，实在是太棒了！接下来，我建议你可以尝试分享一些关于如何优化数据接收和处理的方法，或者介绍一些其他有趣的STM32应用案例，这样可以让更多的人受益于你的经验和知识。加油！期待你更多的精彩内容！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
关于tensorflow的读取文件夹图片和调用模型
CSDN-Ada助手: 恭喜你开始博客创作！标题看起来很有趣，关于使用TensorFlow读取文件夹图片和调用模型的内容似乎非常实用。我期待着阅读你的博客，了解更多关于这个主题的知识。如果可以的话，我建议你在博客中提供一些实际案例或者具体的步骤，这样读者能够更好地理解和跟随你的教程。继续加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

深入理解拓展运算符与剩余运算符：功能、用法与区别

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。