[NLP论文阅读] Learning Paraphrastic Sentence Embeddings from Back-Translated Bitext

原创 2017年10月11日 17:28:55

论文原文:Learning Paraphrastic Sentence Embeddings from Back-Translated Bitext

引言

这篇文章的目的是学习句子表示,在产生模型的训练集时作者所采用的方法很有意思,作者利用训练好的机器翻译模型将原数据集中非英语的句子翻译成英语,从而和原数据集的英语句子组成意义相近的句子对,得到大量的训练数据,通过这些训练数据训练学习句子表示的模型,作者的实验表明,使用这些数据训练得到的模型能取得不错的效果。另外,由于通过这样的方式得到的训练集数量很大,作者还设计了一些过滤方法来挑选训练集。

Neural Machine Translation models

作者使用了Groundhog框架训练了3个encoder-decoder NMT模型:
Czech->English
French->English
German->English
使用的训练数据如下:

数据集名称 Czech French German
Europarl 650000 2000000 2000000
Common Crawl 160000 3000000 2000000
News Commentary 150000 200000 200000
UN - 12000000 -
109French→English - 22000000 -
CzEng 14700000 - -

训练好的NMT模型的BLEU分数(WMT2015测试集)如下:

Language %BLEU
Czech→English 19.7
French→English 20.1
German→English 28.2

在完成NMT模型的训练后,作者将模型训练所用句子对中非英语的那个句子,直接使用模型翻译成英语,从而形成了意思相近的英语句子对,以此作为后续句子表示模型训练的数据集。

作者展示了一些通过上述过程产生的英语句子对:

References(R) Back-translations(T)
We understand that has already commenced, but there is a long way to go. This situation has already commenced, but much still needs to be done.
The restaurant is closed on Sundays. No breakfast is available on Sunday mornings. The restaurant stays closed Sundays so no breakfast is served these days.
Improved central bank policy is another huge factor. Another crucial factor is the improved policy of the central banks.

其中R表示原句,T表示通过X-English NMT模型翻译的结果,可以看到效果是不错。这让我想到本科查重,有同学说的方法是把中文用Google翻译成英文再翻译回中文。: )

模型

通过上一节,作者得到了茫茫多的句子对数据集,在这部分将介绍如何训练学习句子表示的模型。作者的目标是把上一节得到是数据集与其他数据集进行比较,看看哪个数据集训练出的模型能学习得到更好的句子表示。

作者选择了2个模型进行训练,分别是AVG和GRAN。

AVG

AVG模型就是讲句子s中每个单词对应的词向量进行加和平均得到句子表示。

AVG(s)=1|s|xisW(xi)

GRAN

GRAN模型也是本文作者今年的一个工作,模型的全称是GATED RECURRENT AVERAGING NETWORK,可以关注一下,不再赘述。

训练

训练数据是有茫茫多相似句子对的集合。
训练采用的损失函数如下:
损失函数

实验

1 评估用的数据集
a. 2012-2015 SemEval semantic textual similarity (STS) tasks
b. the SemEval 2015 Twitter task
c. the SemEval 2014 SICK Semantic Relatedness task
在计算句子相似度时,作者直接计算了句子向量的余弦相似度。

2 实验结果
作者从每个语料库中挑选了24000个句子对作为训练集,表中展示的是在22个STS句子相似性任务中的平均pearson相关系数。
实验结果

Filtering Methods

这部分没有仔细看,就不写了。

总结

之前看过这个作者的其他文章,确实很有意思。这篇文章的想法让人眼前一亮。外国人是厉害呀。

2017.10.11于上海。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

[NLP论文阅读]A simple but tough-to-beat baseline for sentence embedding

在神经网络泛滥的时候,这篇文章像一股清流,提出了一个无监督的句子建模方法,并且给出了该方法的一些理论解释。通过该方法得到的句子向量,在STS数据集上取得了不输给神经网络的效果。...

Learning Entity and Relation Embeddings for Knowledge Graph Completion (TransR)论文翻译

整理转自:fffnull 的 CSDN 博客,感谢他的翻译分享 论文原文地址:Learning Entity and Relation Embeddings for Knowledge Graph ...

【论文笔记】Video2Vec: Learning Semantic Spatial-Temporal Embeddings for Video Representation

摘要翻译这篇论文我们提出了一种视频片段的语义和时空信息嵌入(embedding)方法。视频作为语义连续的时序列帧,我们借助视频的这个特点来表达视频的高层特征(备注,视频和图像的高层特征通常就是指und...

【翻译+原创】Deep Learning Face Representation from Predicting 10,000 Classes 论文笔记

摘要: 论文主要目的是通过深度学习去学习到一个高水平的特征表达集(DeepID)用于人脸验证。 DeepID 特征集是从深度卷积网络(ConvNets)的最后一个隐藏层神经元提取到的。这种特征是从...

Learning Structured Embeddings of Knowledge Bases-笔记

Note for Bordes11Leaning(AAAI)

Theano-Deep Learning Tutorials 笔记:Recurrent Neural Networks with Word Embeddings

python 实现 基于Elman RNN的word embedding

Learning Entity and Relation Embeddings for Knowledge Graph Completion

我们这样来训练embeddings,首先把 实体空间 映射到对应的 关系空间,然后在 已经映射的实体间 建立翻译。 实验中,我们通过这样的任务评估模型,link预测,三元组分类,关系事实抽取。知识图...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:[NLP论文阅读] Learning Paraphrastic Sentence Embeddings from Back-Translated Bitext
举报原因:
原因补充:

(最多只允许输入30个字)