python attention机制_[深度应用]·Keras实现Self-Attention文本分类（机器如何读懂人心）...

最新推荐文章于 2024-01-23 20:22:46 发布

耳召召

最新推荐文章于 2024-01-23 20:22:46 发布

阅读量978

点赞数 1

文章标签： python attention机制

本文链接：https://blog.csdn.net/weixin_42349261/article/details/114910267

版权

[深度应用]·Keras实现Self-Attention文本分类(机器如何读懂人心)

笔者在[深度概念]·Attention机制概念学习笔记博文中，讲解了Attention机制的概念与技术细节，本篇内容配合讲解，使用Keras实现Self-Attention文本分类，来让大家更加深入理解Attention机制。

一、Self-Attention概念详解

了解了模型大致原理，我们可以详细的看一下究竟Self-Attention结构是怎样的。其基本结构如下

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

对于self-attention来讲，Q(Query), K(Key), V(Value)三个矩阵均来自同一输入，首先我们要计算Q与K之间的点乘，然后为了防止其结果过大，会除以一个尺度标度 equation?tex=%5Csqrt%7Bd_k%7D wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== ，其中 equation?tex=d_k 为一个query和key向量的维度。再利用Softmax操作将其结果归一化为概率分布，然后再乘以矩阵V就得到权重求和的表示。该操作可以表示为 $equation?tex=Attention%28Q%2CK%2CV%29+%3D+softmax%28%5Cfrac%7BQK%5ET%7D%7B%5Csqrt%7Bd_k%7D%7D%29V$ wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

这里可能比较抽象，我们来看一个具体的例子(图片来源于https://jalammar.github.io/illustrated-transformer/，该博客讲解的极其清晰，强烈推荐)，假如我们要翻译一个词组Thinking Machines，其中Thinking的输入的embedding vector用 equation?tex=x_1 wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== 表示，Machines的embedding vector用 equation?tex=x_2 表示。

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

当我们处理Thinking这个词时，我们需要计算句子中所有词与它的Attention Score，这就像将当前词作为搜索的query，去和句子中所有词(包含该词本身)的key去匹配，看看相关度有多高。我们用 equation?tex=q_1 wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== 代表Thinking对应的query vector， equation?tex=k_1 及 equation?tex=k_2 分别代表Thinking以及Machines对应的key vector，则计算Thinking的attention score的时候我们需要计算

最低0.47元/天解锁文章

耳召召

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python attention机制_[深度应用]·Keras实现Self-Attention文本分类（机器如何读懂人心）...

[深度应用]·Keras实现Self-Attention文本分类(机器如何读懂人心)笔者在[深度概念]·Attention机制概念学习笔记博文中，讲解了Attention机制的概念与技术细节，本篇内容配合讲解，使用Keras实现Self-Attention文本分类，来让大家更加深入理解Attention机制。一、Self-Attention概念详解了解了模型大致原理，我们可以详细的看一下究竟Sel...
复制链接

扫一扫