【论文笔记】A model of coherence based on Distributed Sentence Representation

最新推荐文章于 2023-08-31 16:49:37 发布

GodsLeft

最新推荐文章于 2023-08-31 16:49:37 发布

阅读量412

点赞数

分类专栏：算法与数据结构文章标签：句子向量自然语言处理

本文链接：https://blog.csdn.net/GodsLeft/article/details/103565154

版权

17 篇文章 0 订阅

订阅专栏

基于连贯性任务的句子向量表示

这篇文章想找出一种高效的句子的向量表示
使用了文章连贯性的任务来训练
对比了两种句子向量表示
Recurrent Sentence Representation: 就是正常的循环神经网络，使用最后一个隐含层的状态
- $h_t = f(V_{recurrent} h_{t-1} + W_{recurrent} e_{w}^t + b_{recurrent})$ ，RNN的表达式
Recursive Sentence Representation: 递归句子表示，先将句子解析成语法树，那么根节点的向量表示作为句子的向量（根节点向量=f(左节点，右节点)）
- $h_p = f(W_{recursive} [h_{left}, h_{right}] + b_{recursive})$

在这里插入图片描述

句子集合(一个window，可以理解为卷积的window) $C$ ，标签 $y_c$ 如果连贯为1，不连贯0
将句子向量拼接起来： $h_C = [h_{s1}, h_{s2},...,h_{sL}]$ ，其中 $L$ 表示集合 $C$ 当中的句子个数
输入到隐含层： $q_C = tanh(W_{sen} h_C + b_{sen})$
最后预测是否连贯： $p(y_C=1) = sigmod(U q_C + b)$
损失函数，就是分类交叉熵损失： $J(\theta) = \frac{1}{M} \sum_{C \in trainset} \{ -y_C log[p(y_C=1)] - (1-y_C) log[1-p(y_C=1)] \} + \frac{Q}{2M} \sum \theta^2$

$S_d$ : 文档的连贯性评分， $d$ 代表一个文档， $d = \{ s_1, s_2,..., s_{N_d} \}$ ， $N_d$ : 表示 $d$ 文档有多少个句子
如果window size为3，那么一个文档可以生成系列的cliques: $s_{start}, s_1, s_2>, <s_1, s_2, s_3>,...,<s_{N_{d-1}}, s_{N_d}, s_{end}>$
文档连贯性评分： $S_d = \prod_{C \in d} p(y_C=1)$