什么是注意力机制

最新推荐文章于 2024-07-25 10:59:02 发布

时代新人0-0

最新推荐文章于 2024-07-25 10:59:02 发布

阅读量166

点赞数

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39889944/article/details/128813602

版权

图1

我们先举一个例子来帮助大家理解。如上图，在网络世界中，针对不同的场景有不同的视图（View）。当我们要在这个小网络中找出那些行为异常用户（异常用户是指，经常给出差评或经常给出好评，或突然关注很多人）的时候，我们就需要着重关注特定的视图。上图中的4个视图中，View2和View3是我们需要关注的。此时，结合两个视图，我们才能找出那些异常用户。那么问题来了，View2和View3哪一个应该优先作为判断异常用户的特征，哪一个只作为辅助。当这个优先级确定之后，根据这个优先级去得出哪些是异常用户，哪些是正常用户的过程就是注意力机制。

图2

如图2，注意力机制可以这样表示。其中，Query是Attentionpooling中的函数，而Keys和Values是输入参数。但是Values在这张图中似乎并不参与运算，他只是所有可能输出的结果。Keys更像是自变量，经过Query函数的运算后，便能够在Values中选取一个结果作为输出。这张图距离真正的注意力机制更近了。

这里为了方便承接前面的例子，我们讲解核回归，如下图中的公式：

图3

其中公式中的K()可以看作是一个任意函数（其实是核函数），key经过函数计算后会变成value的系数。key的计算结果决定了每个value值对于最终结果影响的大小。

该公式结合图2一起看。

但我们在深度学习中往往会使用可训练的注意力机制，此时将图2中的公式使用核函数化简后得到如下公式：

图4

在该公式中引入一个可训练的参数w，这就是参数化的注意力机制了。

图5

时代新人0-0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
什么是注意力机制

针对刚入门深度学习，对于注意力机制不是很理解，或者希望直接了解注意力机制的同学。本文从一个现实的例子入手，形象的讲解了注意力机制的基本原理。
复制链接

扫一扫

时代新人0-0 CSDN认证博客专家 CSDN认证企业博客

码龄7年

45: 原创

62万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

610: 积分

103: 粉丝

145: 获赞

13: 评论

218: 收藏

私信

关注

热门文章

分类专栏

hive 1篇
数据仓库 10篇
sql 1篇
leetcode算法题 1篇
Hbase 1篇
知识汇总 3篇
hadoop 5篇
flink 4篇
redis 2篇
Spark 3篇
java 3篇
配置记录 4篇
神经网络 1篇
web项目 2篇
往日错误总结 1篇
论文阅读总结 1篇
python

最新评论

Flink中水位线的时间戳为何要减一
时代新人0-0: 是这样的
Flink中水位线的时间戳为何要减一
Zz要变强: 我的理解是来了一条数据，先提取它的时间戳，然后调用onPeriodicEmit()方法来更新当前的事件时间时钟。假设延迟是0，比如10秒时来了一条数据，那么先提取时间戳10秒，然后更新当前事件时间时钟指向9.999秒，拿它和数据的时间戳比较，10>9.999，触发窗口计算。
SQL题：未完成率较高的50%用户近三个月答卷情况
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
Hbase中Rowkey的设计方法
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Flink中水位线的时间戳为何要减一
时代新人0-0: 我的思考是这样的，你所提出的问题关键在于理解这个公式所计算的结果是做什么的：maxTimestamp - outOfOrdernessMillis - 1。你认为的是这个公式计算出的结果9.999是指13将水位线推进到了9.999。但是，这个公式所计算出的是当前窗口的范围，也就是说目前有一个窗口，它要计算的数据是[0,9.999]这个范围的数据。当13这个数据到来的时候，此时的水位线实际是在哪里呢？13-3=10。此时不需要减一。因为减1的目的是将[0,10]这个窗口转变为[0,10)，即[0,9.999]。但是当一条数据到来的时候，也就是13这个数据到来的时候，为什么要减0.001呢？13这条数据到来是不需要减0.001的。maxTimestamp - outOfOrdernessMillis - 1 这个公式的目的是调整窗口大小，而不是调整数据到来时的实际水位线。不知道这样解释是否理解？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。