（阅读笔记）A STRUCTURED SELF-ATTENTIVESENTENCE EMBEDDING

最新推荐文章于 2024-03-28 13:30:00 发布

一个阴天

最新推荐文章于 2024-03-28 13:30:00 发布

阅读量545

点赞数 1

文章标签：深度学习机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40088262/article/details/127097351

版权

本文介绍了如何使用自注意力机制来提取可解释的句子嵌入，通过双向LSTM和自注意力层，结合惩罚项增强嵌入的多样性。作者提供了可视化方法以增强模型的可解释性。

摘要由CSDN通过智能技术生成

来源：2017.ICLR

使用自注意力进行句子嵌入

本文提出了一种通过引入自我注意来提取可解释句子嵌入的模型。作者不使用向量，而是使用二维矩阵来表示嵌入，矩阵的每一行都参与句子的不同部分。并且作者为模型提出了一个自注意机制和一个特殊的正则化项。并且提供了一种简单的方法来可视化句子的哪些特定部分被编码到嵌入中。

图：将所提出的句子嵌入模型应用于情感分析的示例，并结合了全连接层和 softmax 层。

一、模型
1.1双向LSTM

假设一个由n个单词组成的句子，这n个单词经过嵌入后，形成一个向量序列S，每个单词嵌入向量为d，则S的形状为n*d：

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
（阅读笔记）A STRUCTURED SELF-ATTENTIVESENTENCE EMBEDDING

与 KL 散度惩罚相比，此项仅消耗三分之一的计算量：使用 A 的点积及其转置，减去单位矩阵，作为冗余的度量。(a) 和 (b) 显示了矩阵嵌入的 30 行中的 6 行所采取的详细注意力，而 (c) 和 (d) 通过总结所有 30 个注意力权重向量来显示整体注意力。由于 H 的大小为n*2u，注意力权重向量 a 的大小为n。为了将可变长度的句子编码为固定大小的嵌入，通过将H 中的 n 个 LSTM 隐藏向量的线性组合来实现这一点。作者不使用向量，而是使用二维矩阵来表示嵌入，矩阵的每一行都参与句子的不同部分。
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一个阴天 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。