【论文阅读笔记】——《Task-oriented Word Embedding for Text Classification》

本文链接：https://blog.csdn.net/weixin_37846647/article/details/100084089

阅读笔记——《Task-orientedWord Embedding for Text Classification》

Liu et al. Coling2018关于词向量表示的论文，介绍了一种将上下文信息与任务信息相结合，联合学习词向量的方法。
原文地址：《Task-orientedWord Embedding for Text Classification》

1 摘要： 现有的word embedding方法主要是基于上下文语义信息，然而这样训练出来的词向量应用于不同任务时却不能发挥最好的效果，原因是没有将特定任务的信息融合进去。一个好的词嵌入方式应该能够同时捕捉到语义特征与特定任务的特征。本文提出了一种词嵌入方法（ToWE），对词的空间分布正则化，使不同类别的词在空间上有明确的界限。

2 介绍： 传统的词向量表示主要基于上下文信息，如Mikolov et al.的Word2Vec，根据向下文来预测中心词（CBOW）或通过中心词最大化上下文出现概率（skip-gram）。这样训练出来的词向量往往和同一窗口出现词有更高的相似度。在某些特定任务中，如分类任务，在W2V中相似的词并不一定代表着同一类别，我们希望属于同一类别的词相似度更高，不同类别的词相似度更低。
范德萨范德萨范德萨范德萨

图中标红的是文档对应类别的关键词，我们希望同类别的词分布上更加接近，而事实上在W2V中训练出的词向量如第二个分布所示。

作者提出一种结合了上下文信息与任务信息的联合word embedding方法——ToWE。在联合学习框架中，通过Mikolov et al.2013的上下文预测方法来提取上下文特征；然后正则化那些对任务有突出作用的词，使它们在空间分布上有更明确的分类边界，再相应地调整其他词的分布。

本文所做的两点工作：

提出一个以任务为导向（特别是分类任务）的word embedding方法，通过“功能感知模块”提高单词的功能特征（即任务特征），进而使词在嵌入空间中的分布有着更加明确地分类界限；
设计一个数据集——5AbstractsGroup，在该数据集上定量分析，对本文提出的方法在分类任务上的表现给出了直观的理解。同时在5个文本分类数据集的实验结果也证明了基于词功能特征的表示方法可以给出更好的结果。

3 方法

对于未标注的语料库C，有着g个文本类别的训练集D={D1, D2,…,Dg}，我们的目标是训练以任务为导向的d维词向量w_i∈R^d，其中w_i表示词汇表V中的第i个词。

3.1 Context-aware Component —— 上下文感知模块

这里使用Word2Vec来获得上下文信息，通过逻辑回归来生成词向量。W2V有两个版本：CBOW和Skip-gram，一个是通过上下文来预测中心词，一个是通过中心词来预测上下文。我们将目标函数简化：
在这里插入图片描述在CBOW中，w是目标单词，c是上下文的词向量，在Skip-gram中，w是上下文，c是目标单词向量。

3.2 Function-aware Component ——功能感知模块

在功能感知模块中，我们定义那些可以区分出文本类别的词为“关键词”（salient word）。关键词会首先从训练集D中离线抽取，抽取的两条原则：

词w出现在第k类文档D_k的频率远高于在其他类别文档出现的频率；
w在其他类别文档中的频率分布方差很小。

衡量词w对于类别k关键性的打分函数：
在这里插入图片描述其中t_k表示词w在第k类文档中的词频，T_-k(w)指词w在非k类文档的频率集合
（i.e.T_-k(w) = { t_j | 1≤ j ≤ g，j ≠ k } 。
通过打分函数我们可以得到每个类别的topN个关键词，记作S_k { w_j | 1≤ j ≤ N }，k∈[1,g]，对于整个任务我们有关键词集合S = {S1, S2,…Sg}。

在训练学习中，如果输入单词w是S中的词，功能感知模块会被激活。我们希望学习到的词向量具备同类别词更加接近，不同类别词之间距离更大的性质，于是我们为每一个关键词w构建一系列词对P(w)，其中每个词对包含一个同义词u和一个反义词v。u是从关键词集合S中随机的选出的一个与w来自同一个S_i的同义词，v是从Si以外的S_-i选出，作为w的“反义词”。我们通过最大化两者边距来训练S：

在这里插入图片描述
其中γ是边距的超参，n是P(w)中词对的个数，s(·,·)是相似度，这里使用余弦相似度。

3.3 联合学习

我们将上下文感知模块和功能感知模块一起进行优化，目标函数如下：
在这里插入图片描述
其中θ是L_context和L_function的所有参数，λ用作在训练中平衡两个模块。

训练的目标是在参数θ下最大化L，采用SGD随机梯度下降的优化方法。关于L_context的优化沿用Mikolov等的负采样方法。当预测词w为S中的词的时候，对于L_function优化被激活：
在这里插入图片描述
w，u，v,对应于预测词，同义词和反义词。
关于余弦相似度的更新可以表示为：

其中S_a,b是余弦相似度。

算法流程：
在这里插入图片描述
4. 实验

设计了一个数据集5AbstractsGroup，来自于Web of Science中经济、人工智能、社会学、交通和法律5个领域论文的摘要，将其作为数据集的文档。各数据集的实验结果：
在这里插入图片描述 5AbstractsGroup每个领域的前10个关键词：
和其他word embedding方法的比较：
对于λ和n的调整：