双语词表征(bilingual word representation)

什么是双语词表征?

        关于词表征(word representation) 的解释,可以参考博客《Deep Learning in NLP (一)词向量和语言模型》和ACL2010年的论文 Word representations: A simple and general method for semi-supervised learning。 ACL论文给出的解释是:

       A word representation is a mathematical object associated with each word, often a vector. Each dimension’s value corresponds to a feature and might even have a semantic or grammatical interpretation, so we call it a word feature.


        什么意思呢?简单说就一般我们对词语进行数值化,赋一个向量值。以求通过向量值的操作捕捉语言的特性。想简单些就是希望语义上相近的词语在向量表示时候也能靠近点。至于如何向量化,向量的每一个维度代表什么含义,那是另一个议题,不在此进行讨论了。


         一般问题关注于单语,在进行word representation建模时候是单语进行。在面对跨语言问题时候,我们需要进行进行bilingual word representation。问题来了,之前的monolingual word representation是在monolingual corpus训练的,跨语言的时候,语言间各自的word representation如何转换呢?


1. 单语各自训练,直接转换

代表工作Tomas Mikolov的Exploiting similarities among languages for machine translation



Mikolov的工作简单直观,但容易引起其他学者的质疑。Mikolov实验经验性地表明通过线性转换,源语言的word representation能够很好地变为目标语言的word representation。啥意思呢?就是说我希望训练好的一个线性模型,训练时候,输入一个中文的“猫”的word representation,尽量能够出现一个和英文“cat”很像很像的word representation;在测试时候,能偶达到你输入一个“狗”的word representation,得到一个类似英文“dog”的word representation。输猫得猫,输狗得狗。

这个工作需要字典,在训练模型时候使用。


2. 单语各自训练,然后分别转换到第三方语义空间

代表工作Manaal Faruqui的Improving vector space word representations using multilingual correlation


Faruqui的做法不同,他选择了将两个word representation转换到第三方空间,并且希望在三方空间,转换后的“猫”和转换后的“cat”靠在一起,转换后的“狗”和转换后“dog”靠在一起。学习这个模型的过程,就是在最大化我们平行语料(字典)中的互译单词间转换后的相似度,也就是学习过程中尽量让“猫”和“cat”在第三方空间靠近。


*****************

上述两个工作都是将学习单语word representation和双语word representation的步骤分开进行。先单语学习,然后想办法让学习到的单语word representation之间产生关系。很自然地,能否一开始就直接进行双语学习呢?也就是学习时候一边学词语word representation,同时把双语之间的关系(其实就是互译的词语要尽量挨着,不互译的词语尽量别挨着)也给学习下。下面两个工作就是从后面这个出发点进行的。

*****************


3. 双语一起训练

代表工作Stephan Gouws的BILBOWA: Fast Bilingual Distributed Representations withoutWord Alignments





Sarath Chandar A P的An Autoencoder Approach to Learning BilingualWord Representations



  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值