摘要
领域适应(Domain adaptation)在情感分析中至关重要。现存的方法大多都依赖于用源领域训练的情感分类器。但当目标领域与源领域的情感特征存在过于巨大的不同时,情感分类器的性能会显著下降。这篇文章提出了一个叫做active sentiment domain adaptation的方法来处理这个问题。这篇文章不是使用源领域的情感分类器,而是在一个主动学习模式下选择和标注的少量样本的帮助下,使一般用途的(general-purpose )情绪词汇适应目标领域,以及从目标域未标记的样本中挖掘出的词与域特定的情感相似性。提出了一个能够融合不同种类的情感信息以及训练目标领域的情感分类器的统一的模型。详细的实验表明本模型能在少量数据下有准确的结果。
介绍
不同领域的情绪词主要有以下不同:1.表达情绪的词语不同;2.同一个情绪词不同领域表达的情绪不同
现有困境:1.数据量巨大,不可能为每一个领域都进行人工标注
因此,将一个已经使用足够多的已标注的训练数据训练好的源领域的情感分类应用于缺乏已标注,或标注极少的训练数据的目标领域的研究非常多。现有方法大多是基于转化学习技术(transfer learning techniques ),主要通过学习一个新的特征代表来增强或取代源特征空间,来减少源领域和目标领域的情感特征的差别。这种方法的优点是不需要目标领域的标注数据,但当目标领域和源领域之间的差别存在无法逾越的鸿沟时,这种方法的性能下降也是显著的,甚至还不如没有领域转化适应的结果。
本论文利用一般的情绪信息和少量的主动搜集的目标领域的标注样本数据来解决这个问题。更具体地说, 在我们的方法中, 从情绪词汇中提取的一般情绪信息是用词中特定领域的情感相似性来适应目标领域的。一般情绪信息被视为需要转化的“背景”领域,而词的情感相似性是从目标领域的未标注数据中利用句法规则和共生模式等抽取的。然后, 我们积极地从目标域中选择和注释少量的信息样本。这些标注数据在本模型中被合并,用来提高情感领域适应的性能。
2 Related Work
2.1 Sentiment Domain Adaptation
现有情感领域适应方法主要是基于转移学习技术 (Pan 和杨, 2010), 其中情绪分类器训练在一个或多个源域有足够的标签样本, 然后应用到没有或仅稀缺标记样本的目标领域。然后为了弥补现有情感分类中源领域与目标领域的建个太大的缺陷,现有的很多工作也集中在学习一个新的特征表示来增强或替代源领域的特征空间。例如, 潘等 (2010) 提出了一种情绪
基于谱特征的域自适应方法。
主要对比了一下现有工作和本论文的不同,本论文的改善主要有两点
1. 对于不采用目标领域标注数据的方法,本文的方法主动选择目标领域数据,避免负迁移的危险
2. 对于采用目标领域数据的方法,因为现有工作主要是随机选取的目标领域数据,但本论文的方法是主动选择目标领域的数据样本进行标注,因此能够降低人工标注对结果的影响。
2.2 Active Learning
主动学习是一种在无标签的数据很丰富, 但他们的标签很难获取或获取的方式很昂贵的情况下有用的技术, 通过积极选择信息样本进行标签, 主动学习可以有效地减少注释工作量, 并通过有限的预算提高分类性能
主动学习中的一个重要问题是如何评价未标记样本的信息,在我们的方法中, 用不确定度和密度相结合来测量样本的信息。我们的方法和现有的主动学习方法之间的一个主要区别是, 在现有方法中, 初始分类器的参数要么初始化为零 (Cesa 比安奇等, 2006), 要么从一组随机选取的样本中学习 (定居,2010) 与此相反, 我们的方法中最初的情绪分类器是通过将一般情绪信息通过语言中特定领域的情感相似性来调整为目标域而构建的。
然后列举了目前将主动学习应用在情感分类任务上的几个论文。与这些方法不同, 我们的方法不依赖于源域的标记数据。相反, 在我们的方法中, 情绪词汇中的一般情绪信息是积极适应目标领域的, 通常在不同领域的泛化能力比在源域中训练的情绪分类器要好。此外, 我们的方法可以将目标域未标记的样本中挖掘的特定于域的情感相似性信息考虑进来, 这些词在这些方法中不被考虑
3 Active Sentiment Domain Adaptation
3.1 Notations
损失函数f(xi, yi,w)中,Xi表示样本的特征向量,yi是标签,w是线性分类器
S表示从无标签的目标领域中抽取的情感词的相似性
3.2 Domain-Specific Sentiment Similarities
主要有两种相似性
1.基于句法规则,如果两个词有相同的词性标注(动词,形容词等)并且在相同的句子中他们被协调的连词相连接(比如and),则将他们视为有相同的情感极性。而当词性标注相同但被but连接时,视为有相反的情感极性。然后通过统计不同极性的频率,用一个相似性计算公式计算两个词的相似性分数。灵感来自于(Hatzivassiloglou and McKeown, 1997; Huang et al., 2014; Wu and Huang, 2016).
2.基于词之间的共现模式,灵感来自于(Turney, 2002; Velikovich et al., 2010; Yogatama and Smith, 2014; Tang et al., 2015; Hamilton et al., 2016).词之间的更高的共现频率可能不仅代表有相似的语义,也有很大的可能有相似的情感。本文通过计算文档中词的共现频率,计算相似性分数。
只用词对的句法规则能覆盖的信息很有限但是精度很高,因为词对能被判断的句法规则是稀疏的,因此本文增加了词的共现模式来计算相似性,因为文档通常是长文本,覆盖的信息很广但是精确度不高。因此本论文的目的在于平衡句法信息的精确度与词共现的广度的重要程度。因此本文又设置了一个相加的公式作为最后的相似性公式,用一个权重来平衡两者的关系。
3.3 Initial Sentiment Classifier Construction
现有的主动学习方法主要是通过随机选取目的领域的样本,但这种方法通常有冗余以及信息不足的缺陷。本文提出了将一般情绪信息通过特定领域的情感相似性与目标域相适应的方式构建初始情绪分类器。公式有点奇怪。。。。所以我之前的理解都错了。。。。。应该是这样。。。强行加括号2333,括号内都是argmin f(x)中的f(x)需要求出令括号内的内容最小的wi,wj。Wi,wj应该是每个词的情感权重。
1. - PD i=1 piwi 表示当词的pi(情感极性)在一般领域为积极(或消极)时,情感权重也被限制为积极(或消极)
2. PD i=1 Pj6=i Si,j(wi - wj)2 表示当两个词i,j的情感相似性分数很高时,情感权重也相似。
不太懂。。。。
3.4 Query Strategy
主动学习方法是主动选择信息丰富的词语加入训练集,那最主要的问题就是如何评估未标注样本的信息量。本文选择已经被证明有效的(classification uncertainty )分类不确定度(classification uncertainty )作为信息量测量方式。在本论文中定义了一个公式,当当前的分类器对当前词的分类很有把握时,这个词的不确定度很低,反之不确定度很高。在不确定度很高的情况下, 对此实例进行注释并将其添加到训练集是有益的, 因为它可以提供未知情绪表达式的信息, 并具有快速提高目标域情绪分类器质量的潜力。
同时为了避免选择的高不确定度词语会出现的极端甚至误导的情况,本论文使用基于密度的KNN方法作为代表性,将不确定性与代表性结合起来以避免异常情况((Zhu et al., 2010; Hajmohammadi et al.,2015). )。
最后的式子通过一个权重函数,将模型迭代前期的选择策略倾向于代表性高的词语,后期选择策略倾向于不确定性高的词语。因为前期模型比较弱,需要有代表性的词语,而当越来越多的标注样本被选择进训练样本集后模型就可以通过不确定性强的词语增强自身的适应目标领域的性能。
3.5 Active Domain Adaptation
这部分介绍完整的主动情感领域适应方法。
4 Experiments
4.1 Datasets
我们在实验中使用的数据集是Blitzer et al.(2007)亚马逊产品评论 , 广泛应用于情绪分析和领域适应研究 (Pan et al., 2010;Bollegala et al., 2011) 。