一个阴天-CSDN博客

原创（阅读笔记）A STRUCTURED SELF-ATTENTIVESENTENCE EMBEDDING

与 KL 散度惩罚相比，此项仅消耗三分之一的计算量：使用 A 的点积及其转置，减去单位矩阵，作为冗余的度量。(a) 和 (b) 显示了矩阵嵌入的 30 行中的 6 行所采取的详细注意力，而 (c) 和 (d) 通过总结所有 30 个注意力权重向量来显示整体注意力。由于 H 的大小为n*2u，注意力权重向量 a 的大小为n。为了将可变长度的句子编码为固定大小的嵌入，通过将H 中的 n 个 LSTM 隐藏向量的线性组合来实现这一点。作者不使用向量，而是使用二维矩阵来表示嵌入，矩阵的每一行都参与句子的不同部分。

2022-09-28 21:22:35 545 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_40088262的博客

原创（阅读笔记）A STRUCTURED SELF-ATTENTIVESENTENCE EMBEDDING

原创（笔记）李宏毅机器学习——自注意力，多头自注意力

原创（阅读笔记）PARE：A Simple and Strong Baseline for Monolingual and MultilingualDistantly Supervis

原创（阅读笔记）R-Bert：Enriching Pre-trained Language Model with Entity Information for Relation Classificatio

空空如也

空空如也

原创 （阅读笔记）A STRUCTURED SELF-ATTENTIVESENTENCE EMBEDDING

原创 （笔记）李宏毅机器学习——自注意力，多头自注意力

原创 （阅读笔记）PARE：A Simple and Strong Baseline for Monolingual and MultilingualDistantly Supervis

原创 （阅读笔记）R-Bert：Enriching Pre-trained Language Model with Entity Information for Relation Classificatio

空空如也

空空如也

原创（阅读笔记）A STRUCTURED SELF-ATTENTIVESENTENCE EMBEDDING

原创（笔记）李宏毅机器学习——自注意力，多头自注意力

原创（阅读笔记）PARE：A Simple and Strong Baseline for Monolingual and MultilingualDistantly Supervis

原创（阅读笔记）R-Bert：Enriching Pre-trained Language Model with Entity Information for Relation Classificatio