注意力机制

最新推荐文章于 2023-03-28 16:31:47 发布

＿愚者

最新推荐文章于 2023-03-28 16:31:47 发布

阅读量166

点赞数

分类专栏： NLP 文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43477218/article/details/113836799

版权

NLP 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

在这里插入图片描述

注意力机制其实就是在Encoding。
什么是Encoding？：Encoding就是在编码，将一个东西A经过某种规则B变成另一种东西C，C是A的另一种表达（C与A指的是同一个东西只不过表现形式不同罢了）。这样从A到C的过程B就是Encoding的过程！

Encoding的谁？

Encoding的words，使用SelfAttention机制将words encoding成sentence representation。（实现机制是：将每个query对words的encode vector（C）合成一个vector，具体看STCKA的操作）
仍然是Encoding的words，使用普通的Attention对每个query计算其C（encode vector）

以上两种是根据task不同划分的，第一种是要求sentence representation（用于sentence representation）。
另一种是求单个query的C即可（这个用于seq2seq）。

在SelfAttention中Q、K、V的计算方式：

Q=K=V=WordVector
从WordVector中获取：（X是对应单词的WordVector）

这三个W参数是嵌入在模型中的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

＿愚者 CSDN认证博客专家 CSDN认证企业博客

码龄6年

142: 原创

4万+: 周排名

138万+: 总排名

8万+: 访问

: 等级

1653: 积分

136: 粉丝

50: 获赞

18: 评论

204: 收藏

私信

关注

热门文章

分类专栏

DeepLearn 17篇
NLP 12篇
算法与数据结构 20篇
23种设计模式 2篇
python 7篇
PostgreSQL 7篇
xml 1篇
python-docx 1篇
论文 1篇
vue 5篇
SpringMVC 4篇
Spring 6篇
JavaEE 11篇
MyBatis 5篇
Java 13篇
JavaEE遇到的小麻烦们 8篇
Maven 3篇
数据库 1篇
MySQL 3篇
JavaScript 6篇
HTML 1篇
CSS 4篇
GUI 1篇
java一些小知识 1篇

最新评论

pytorch掩码(masked)
m0_56786922: 请问可以在lstm模型里用吗
学习k近邻
＿愚者: 用于在已有一部分精确数据集，但是不够训练神经网络，可以使用knn做系统
感知机学习
＿愚者: 在SVM中，因为分子部分是函数间隔，所以可以求解最大间隔。而在感知机中，求解目标并不是最大间隔，因此分界面可用就行，并非需要最大化间隔，所以去掉分母w只用分子部分判断其是否分类正确即可。 SVM衡量的是真实的距离，而感知机衡量的是分类点距离分界线是否够远（非实际距离）即止步于SVM中的函数间隔。
python-docx基础(一)
lady_killer9: 膜拜技术大佬,欢迎来我博客指点江山吧
python查漏
LaoYuanPython: 有幸看到博主新作!辛苦博主的细致介绍！同为Python的爱好者，欢迎到本人博客的Python专栏来交流！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。