论文笔记《Domain Adapted Word Embeddings for Improved Sentiment Classification》

原文链接
本文发表于自然语言处理领域顶级会议 ACL 2018

摘要

通用的词语embedding是在大规模语料下训练出来的具有通用性的特点,但在特定领域表现欠佳,而特定领域的词语embedding仅在特定领域能够使用,欠缺通用性。本文提出了一种兼具通用性和领域性的词语embedding方式,实验效果不错。

模型

设矩阵 WDSR|VDS|×d1 的每一列都是特定领域的词语的embedding向量,令 wi,DSDS 中词语 i 的embedding,其中 VDS 是该领域词语的集合, d1 是词向量的维度。类似的,我们设 WGR|VG|×d2 为通用词语向量组成的矩阵。设 V=VDSVG, 令 wi,GV 中词语 i 的embedding。令 ϕDSϕG 分别为 wi,DSwi,G 的映射矩阵,我们进行如下映射:

w¯i,DS=wi,DSϕDS

w¯i,G=wi,GϕG

这样我们就可以通过去使 w¯i,DSw¯i,G 相关度最大,从而列式计算出 ϕDSϕG 来,本文把这种操作称之为CCA,公式如下所示:
这里写图片描述
其中 ρϕDSϕG 的相关度,EV 中所有单词的期望。


线
d 个维度的CCA可以被递归地求出来:假设我们已经求出来了前 d1 个维度,那么第 d 个维度可以通过求解使相关函数最大的变量来得出(约束条件为第 d 个维度与前 d1 个维度不相关),设 ΦDSRd1dΦGRd2dWDSWG 中向量的映射的集合,其中 d<=min{d1,d2}


单词的最终embedding表示由 w^i,DA=αw¯i,DS+βw¯i,G 得出,其中 αβ 通过解如下优化问题得出:
这里写图片描述
解得 α=β=12 ,于是我们得出:

w^i,DA=12w¯i,DS+12w¯i,G

由于w¯i,DS=wi,DSϕDSw¯i,G=wi,GϕG ,这是一个线性的关系,这样一来公式(2)就可能就无法求得最佳的w¯i,DSw¯i,G ,因为 wi,DSw¯i,DS 以及 w¯i,Gwi,G 可能不是一个简单的线性关系。
为了避免这种情况,本文使用核函数将最初的输入数据映射到高维空间之后再采用CCA方法求解,本文采用的核函数为:
这里写图片描述

阅读更多

没有更多推荐了,返回首页