神经网络模型底层原理与实现6—自注意力机制

最新推荐文章于 2024-05-20 19:08:38 发布

爱学习的uu

最新推荐文章于 2024-05-20 19:08:38 发布

阅读量404

点赞数 18

文章标签：神经网络人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60792028/article/details/137285657

版权

解决的问题：之前的网络针对的输入都是一个向量，现在是一串向量（比如句子、语音）

预处理：把文字表达成向量：用独热编码或者词向量

输出是什么：给每个向量打标（词性）/整个向量组打标（情感分析）/输出的类型数不定（比如写一段话概括一篇文章）

为什么不能用全连接层：句子的长度不定，如果要用则网络要按最长的句子大小来开

原理：如图所示，b1由a1-a4中与a1相关的向量共同产生，如何求出相关系数a呢：

把a1和a2分别乘矩阵Wq和Wk，得q和k，然后计算点乘

根据这个原理，按图中箭头操作得四个相关性向量，再经过softmax层得输出

接下来根据相关性抽取重要资讯：再对每个向量分别求v1-vn，对应相乘累加得bi，哪个的相关性分数大，就将决定bi

多头注意力机制：如果需要考虑多种相关性，则可讲每个q分别去乘多个矩阵得到qi，1...qi，n再去分别算

改进：有些问题中位置信息也重要，则把ai+位置向量ei后再计算

原理讲到这儿，下面和CNN做个对比：CNN其实是一个简化版的自注意力机制，它只考虑一个范围内的格子

应用：可以把自注意力机制用在图上面，此时只要计算有连接的两点间的相关性（即为GNN）

关注

18
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
神经网络模型底层原理与实现6—自注意力机制

接下来根据相关性抽取重要资讯：再对每个向量分别求v1-vn，对应相乘累加得bi，哪个的相关性分数大，就将决定bi。输出是什么：给每个向量打标（词性）/整个向量组打标（情感分析）/输出的类型数不定（比如写一段话概括一篇文章）多头注意力机制：如果需要考虑多种相关性，则可讲每个q分别去乘多个矩阵得到qi，1...qi，n再去分别算。原理讲到这儿，下面和CNN做个对比：CNN其实是一个简化版的自注意力机制，它只考虑一个范围内的格子。解决的问题：之前的网络针对的输入都是一个向量，现在是一串向量（比如句子、语音）
复制链接

扫一扫

爱学习的uu CSDN认证博客专家 CSDN认证企业博客

码龄3年

21: 原创

73万+: 周排名

4万+: 总排名

1万+: 访问

: 等级

523: 积分

196: 粉丝

310: 获赞

3: 评论

94: 收藏

私信

关注

热门文章

最新评论

kaggle竞赛实战1
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
你绝对没看过的求职及职场经验分享1—面试篇
普通网友: 好文！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
模型套路1——神经网络模型训练
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618289361。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。