论文笔记《Domain Adapted Word Embeddings for Improved Sentiment Classification》

原文链接
本文发表于自然语言处理领域顶级会议 ACL 2018

摘要

通用的词语embedding是在大规模语料下训练出来的具有通用性的特点,但在特定领域表现欠佳,而特定领域的词语embedding仅在特定领域能够使用,欠缺通用性。本文提出了一种兼具通用性和领域性的词语embedding方式,实验效果不错。

模型

设矩阵 WDSR|VDS|×d1 W D S ∈ R | V D S | × d 1 的每一列都是特定领域的词语的embedding向量,令 wi,DS w i , D S DS D S 中词语 i i 的embedding,其中 VDS 是该领域词语的集合, d1 d 1 是词向量的维度。类似的,我们设 WGR|VG|×d2 W G ∈ R | V G | × d 2 为通用词语向量组成的矩阵。设 V=VDSVG V ⋂ = V D S ⋂ V G , 令 wi,G w i , G V V ⋂ 中词语 i i 的embedding。令 ϕDS ϕG ϕ G 分别为 wi,DS w i , D S wi,G w i , G 的映射矩阵,我们进行如下映射:

wi,DS=wi,DSϕDS w ¯ i , D S = w i , D S ϕ D S

wi,G=wi,GϕG w ¯ i , G = w i , G ϕ G

这样我们就可以通过去使 wi,DS w ¯ i , D S wi,G w ¯ i , G 相关度最大,从而列式计算出 ϕDS ϕ D S ϕG ϕ G 来,本文把这种操作称之为CCA,公式如下所示:
这里写图片描述
其中 ρ ρ ϕDS ϕ D S ϕG ϕ G 的相关度, E E V 中所有单词的期望。


线 ( 两 条 横 线 之 间 的 这 一 段 先 别 看 , 原 文 没 太 看 懂 )
d d 个维度的CCA可以被递归地求出来:假设我们已经求出来了前 d1 个维度,那么第 d d 个维度可以通过求解使相关函数最大的变量来得出(约束条件为第 d 个维度与前 d1 d − 1 个维度不相关),设 ΦDSRd1d Φ D S ∈ R d 1 ∗ d ΦGRd2d Φ G ∈ R d 2 ∗ d WDS W D S WG W G 中向量的映射的集合,其中 d<=min{d1,d2} d <= m i n { d 1 , d 2 }


单词的最终embedding表示由 ŵ i,DA=αwi,DS+βwi,G w ^ i , D A = α w ¯ i , D S + β w ¯ i , G 得出,其中 α α β β 通过解如下优化问题得出:
这里写图片描述
解得 α=β=12 α = β = 1 2 ,于是我们得出:

ŵ i,DA=12wi,DS+12wi,G w ^ i , D A = 1 2 w ¯ i , D S + 1 2 w ¯ i , G

由于 wi,DS=wi,DSϕDS w ¯ i , D S = w i , D S ϕ D S wi,G=wi,GϕG w ¯ i , G = w i , G ϕ G ,这是一个线性的关系,这样一来公式(2)就可能就无法求得最佳的 wi,DS w ¯ i , D S wi,G w ¯ i , G ,因为 wi,DS w i , D S wi,DS w ¯ i , D S 以及 wi,G w ¯ i , G wi,G w i , G 可能不是一个简单的线性关系。
为了避免这种情况,本文使用核函数将最初的输入数据映射到高维空间之后再采用CCA方法求解,本文采用的核函数为:
这里写图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值