2021-01-01

标题:NLP顶会论文分享(1)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

**

TITLE:A BILINGUAL GENERATIVE TRANSFORMER FOR SEMANTIC SENTENCE EMBEDDING的分享

**


作者认为不同语言形容某句话,其最深层次的语义是相同的,而不同的是文体和语言特有的特征,所以作者提出了一个deep latent variable model去对双语句子进行source seperate,以期望获得语句中的语义向量。首先,作者提出variational probabilistic framework,用于双语语句的语义向量剥离,然后在测试集上用于预测语句embedding。然后是进行对比试验,用high-capacity transformers和推理网络,来与过去大多数关于sentence embedding的工作做对比。

一、Sentence Embedding History And Function

1.Word Embedding:把每个词映射成vector(word2vec,glove,NNLM)
2.Setence Embedding:average法则-----句子中所有的词向量相加求和,在取平均。
3.本文重点学习语义句子嵌入,在许多下游应用中起着重要的作用。 由于它们不需要任何标记数据来进行微调,句子嵌入对于各种问题非常有用。 这些包括语义文本相似性(STS;Agirre等人。 (2012年))、采矿术语(Zweigenbaum等人,2018年)和释义识别(Dolan等人,2004年)。 语义相似性度量也有下游用途,如微调机器翻译系统(Wieting等人,2019a)

二、Model

1.GOAL

作者旨在学习句子的嵌入,即句子的语义,其不会因语言的变化而变化。作者通过BGT模型,分离出句子所独有的语义向量。下面会为各位详细剖析BGT。

2.Process

图一
step1:作者首先设有N个sample的双语语句X={<Xen(1),Xfr(1)>……<Xen(N),Xfr(N)>}作为输入语句,然后分别喂入各自的语言推理网络和语义推理网络,输出了潜在变量数据集{<Zen(1),Zfr(1),Zsem>……<Zen(N),Zfr(N),Zsem>},如图二所示

图二
在这里插入图片描述 step2:作者要想完整的分离出语义向量,则需要最大化p(X; θ)
p(X; θ)=
但是由于X和Z之间的复杂关系,这个积分非常难以求解,我们难以用直接求积分的方法p(X)的极大值难以求解。可以假设一个简单的分布q,然后用分布q去拟合p。

step3:由此问题转换成 φ=argmin(divergence(p,q))的优化问题,
根据ElBO可得:在这里插入图片描述

3.Conclusion

在这里插入图片描述先看最左边的图,作者通过输入双语的语料进入以transformer为基础的推理网络,语料分别进入三个编码器,但是由于难以计算分离出的语义向量的p分布和各自语言特征向量的p分布,所以作者通过变分的方法,使用我们熟知的q分布去拟合p,得到三个分布。

在这里插入图片描述然后看中间图的,上面的得到的三个高斯分布汇总成一个多元高斯分布。

在这里插入图片描述最后,把语义分布分别和两种语言分布分别喂给transformer的解码器部分,输出两种语言的句子。


总结

作者旨在通过大量的语料,训练出一个可以分离出句子语义的model。主要思路是先对喂入的语料进行分离并编码,然后是通过语义和语言编码,喂入解码器,输出句子,最后计算输入和输出之间的误差,反向优化model,最后训练出的model在句子语义的embedding取得很好的效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值