利用标签与样本之间的统计信息改善文本分类中的embedding表示
摘要
- 文本分类是处理文本数据最常见的任务之一,有助于从大规模数据集中进行其他研究。近年来,不同类型的嵌入特征已成为文本分类的事实标准。这些嵌套有能力捕捉从大型外部集合中的事件推断出的单词的含义。虽然它们是建立在外部集合之上的,但它们不知道单词在现有分类数据集中的分布特征,包括最重要的是训练数据中单词在不同类别之间的分布。
- 为了充分利用这些嵌入特征,提高分类器的性能,我们引入了一种加权方案,即词频类别比(TF-CR),该方案可以在计算词嵌入时提高高频、类别排斥的词的权重。
- 我们在8个数据集上的实验显示了TF-CR的有效性,在大多数情况下,相比于众所周知的加权方案TF-IDF和KLD,以及没有加权方案的情况下,TF-CR的性能分数都有所提高。
介绍
单词嵌入或分布式单词表示已成为处理文本的最常见功能之一。单词嵌入已经成功地应用于许多自然语言处理和信息检索任务中,如情感分析、机器翻译、搜索或推荐系统,以及不同领域如生物医学或金融,表现优于传统的基于词袋或n元语法的向量表示方法。
在这项工作中,我们关注文本分类,其中单词嵌入和派生通常用于表示待分类实例的文本内容。虽然单词嵌入是用于文本分类的广泛使用的特征,但它们通常用于实例的文本内容的矢量表示,而与每个单词在每个类别中的重要性无关。我们建议在训练数据中加入来自类别标签的信息来改进向量表示。在这里,我们提出了词频-类别比(TF-CR),这是一种加权方案,它利用训练数据中的类别标签来使用词嵌入来产生改进的向量表示,该表示由训练数据中的类别分布来通知。
文献中缺少尝试利用训练数据中跨类的内容分布来改进单词嵌入表示的工作。解决这一问题的为数不多的工作主要集中在大规模数据集上,由于有丰富的域内数据,可以为每个类别训练单独的词嵌入模型。这就是情感分析等问题的情况,在这些问题中,人们可以通过使用远程监督来构建如此大的注释数据集。在本文中,我们的目标是开发一种改进的单词嵌入表示法,用于训练数据不一定很丰富的文本分类。为此,我们首次提出了一种新的加权方案-词频-类别比(TF-CR),该方案可以应用于预先训练的、与领域无关的词嵌入模型,只利用手头数据集中可用的训练数据来对嵌入进行特定于数据集的加权。TF-CR背后的直觉是给训练数据中观察到的高频、类别排除的单词赋予更高的权重。
我们在8个分类数据集上的实验表明,TF-CR的一致性有效性显著提高了词汇嵌入表示在文本分类方面的性能,相比于使用著名的加权方案TF-IDF和KLD,以及相比于未加权的词汇嵌入方案。
相关工作
通过所谓的神经概率语言模型学习单词的分布式表示的早期方法最近随着嵌入而获得了发展势头。这引发了其他方法的发展,以通过学习单词嵌入来降低传统矢量表示方法(如词袋)的维数。学习单词嵌入的两种最著名的方法包括word2vec和Glove,它们支持降维以及捕获单词之间的语义相似性。关键的直觉是,有了一个庞大的语料库来训练模型,人们可以通过分析单词的上下文,即其他单词周围的单词来学习单词的语义特征。这导致降维的向量(单词嵌入)来表示每个单词,它们通常在100到500维之间。句子表示的一种广泛采用的做法是获得所讨论的句子中嵌入的单词的总和或平均值。
然而,使用词嵌入来进行文本分类而不对词进行特定的加权,忽略了可以从类标签中提取的潜在有用信息。虽然这个问题以前已经被解决了,但在探索类标签的实用性以最大限度地利用单词嵌入来进行文本分类方面的工作是有限的。以往利用类别标签来提高文本分类中词嵌入性能的研究主要集中在情感分析上。情感分析任务是适合的,因为它可能收集大的,远距离监督的数据集,这些数据集被用来训练情感特定的嵌入。有了大的注释数据集,就可以为每个类训练单独的单词嵌入模型,或者学习包含类分布的模型。这已经在不同的方法中实现,通过组合多个神经网络或使用单独的训练过程来训练数据集中每个类的不同的词嵌入模型。然而,这需要大量标记数据的可用性来训练单独的模型,这对于利用远程监督来收集数据的分类任务是可能的,就像情感分析的情况一样。然而,在其他文本分类问题中,收集标记数据是昂贵的。接下来,我们提出了一种新的加权方案TF-CR来解决这个问题。
TF-CR加权方案
我们提出了一种新的文本分类任务中单词嵌入表示的加权方案,其目的是根据单词在训练数据中跨类别的分布来确定每个单词对于每个特定类别的重要性,这可以提供单词嵌入固有地忽略的附加信息。这可以通过使用通常用于基于词袋的文本分类的众所周知的加权方案来实现,例如TF-IDF和Kullback-Leibler Discovery(KLD)。
为了适应文本分类中词语嵌入的目的,本文提出了一种新的加权方法。词频-类别比(Term Frequency- Category Ratio, TF-CR)是一个简单的加权方案,它结合了一个词在一个类别中的重要性(Term Frequency, TF)和该词在所有类别中的分布(Category Ratio - tio, CR)。对每个类别c中的每个单词w都计算TF和CR。
- TF衡量在某个类别的词中,某个词出现的频率,这个词在这个类中的重要性, T F w c = ∣ w c ∣ N c TF_{wc}=\frac{|w_c|}{N_c} TFwc=Nc∣wc∣;
- CR衡量某个词出现的总次数中,多大的比利时出线在这个类别中,这个词跟这个类的分布上的相关性, C R w c = ∣ w c ∣ ∣ w ∣ CR_{wc}=\frac{|w_c|}{|w|} CRwc=∣w∣∣wc∣。
其中, c c c是给定的某个类别, w w w代表某个词, ∣ w c ∣ |w_c| ∣wc∣是词 w w w在类别 c c c中的出现次数。
TF-CR计算公式如下:
T
F
−
C
R
=
∣
w
c
∣
N
c
×
∣
w
c
∣
∣
w
∣
=
∣
w
c
∣
2
N
c
×
∣
w
∣
TF-CR=\frac{|w_c|}{N_c}\times \frac{|w_c|}{|w|}=\frac{|w_c|^2}{N_c\times |w|}
TF−CR=Nc∣wc∣×∣w∣∣wc∣=Nc×∣w∣∣wc∣2
TF-CR计算过程示意图如下:

TF-CR最终会对在某个类别中唯一出现且出现频率较高的单词给予较高的权重。仅限于某一类别的低频词和所有类别中频繁出现的高频词得分较低。
TF-CR在嵌入中的应用
为了创建一个使用TF-CR加权的表示,我们首先构建文本的类别特定词嵌入表示。这种特定类别的表达方式是将句子中每个单词的嵌入量加起来,再乘以它们的TF-CR分数。这导致k个tf - cr加权的嵌入表示,其中k是数据集中的类别数。最后我们将这k个嵌入表示串联起来,得到最终的向量,其维数为k×d,其中d为单词嵌入模型的维数。
实验
数据集
我们使用8个不同的数据集:
- RepLab polarity dataset:一个由84745条提到公司的推文组成的数据集,按极性标注为正面、负面或中性。
- ODPtweets:一个拥有近2500万条推文的大规模数据集,每条推文都被分为开放目录项目(ODP)的17个类别中的一个。
- Restaurant reviews:Tri- pAdvisor的一个大数据集,包含了14,542,460个餐馆评论,这些评论的相关星级评级从1到5不等。
- SemEval sentiment tweets:我们从SemEval推特情感分析任务中收集了2013年到2017年的所有注释推文。结果数据集包含61767条tweets。
- Distantly supervised sentiment tweets:通过使用Internet Archive2上发布的2013年1月至2019年9月的大量推文集合,我们生成了一个推文注释数据集,通过使用远程监督跟踪来进行情感分析,从而将推文注释为正面或负面。结果数据集包含33,203,834条tweets。
- Hate speech dataset:包含99,996条推文的数据集,每条推文都被归类为 {abusive, hateful, spam, normal}(辱骂、仇恨、垃圾邮件、正常)中的一种。
- Newsspace200 :近50万篇新闻文章的数据集,每篇文章分为14个类别之一,包括商业、体育和娱乐。
- 20 Newsgroups:近20,000个新闻组文档的集合,属于用作类别的20个不同新闻组。
对于所有数据集,我们随机抽样100,000个实例,除了那些实例较少的实例。
Word Embedding Models & Classifiers
我们测试了四个单词嵌入模型:
- 谷歌的Word2Vec模型(GW2V)
- 一个Twitter Word2VEC Model5(TW2V)
- 手套嵌入从普通爬行(CGlove)
- 手套嵌入训练的手套嵌入来自维基百科(Wllove)
对不同的分级器进行了测试。由于空间有限,我们在这里展示了用逻辑回归分类器和tw2v嵌入得到的结果,这些结果始终导致最优结果。我们将宏f1值作为性能分数报告。
加权方案
我们比较了四种不同的加权方案,它们都是按照“TF-CR在嵌入中的应用”中的方法来应用的:
- No weighting (no wgt);
- TF-IDF:它将文档频率低的单词加权得更高。我们计算每个类别中的每个单词的TF-IDF得分,从而计算该单词在每个类别中的重要性;
- KLD:这决定了一个单词在一个类别中相对于其他类别的突出性。同样,KLD会给每个类别中的每个单词打分;
- TF-CR:我们的加权方案在“TF-CR加权方案”中定义。
使用TF-CR调整文本表示
首先假设我们的使用场景是文本分类,有k个类别。
- 每个词都会对每个类别计算一个TF-CR指标作为权重,即一个词有k个权重。
- 将给定文本中所有词的embedding进行加权求和,得到k个embedding。
- 将k个embedding拼接起来,得到最终的文本向量表示。
为了方便记忆,上面的过程可以这样表示:

这k个embedding,各自都是相应类别的重要特征,通过这样的操作,我们把原文本混杂在一起的特征,做了一个分离,这样对于后面的分类器来说,就可以更好地理解文本的特征。
不同大小的训练集
虽然我们有多达90000个实例可用作为训练数据,但我们使用不同数量的训练实例进行实验。这使得我们可以评估加权方案在多大程度上有助于不同规模的训练数据,前提是使用这些方案的权重计算只能从每种情况下可用的训练数据中完成。我们对1000到9000个训练集进行了实验。在每个训练场景中随机抽取训练实例,在相同训练规模的不同实验中保持随机样本的一致性,并逐步增加实例,即5000个训练集包含4000个训练实例的所有训练实例,再加上1000个训练实例。报告的所有性能分数都是平均10倍交叉验证实验的结果。
结果

表1显示了不同数量的训练实例的结果。我们观察到,无论训练规模如何,TF-CR始终优于其他加权方案,TF-IDF和KLD。随着训练数据的增加,TF-CR和其他加权方案之间的差距通常会变大,这表明TF-CR更有效地利用类分布。我们还可以观察到,当训练数据小到1000个实例时,未加权方法在8个数据集中有6个优于TF-CR。然而,随着训练数据的增加,TF-CR变得更加有效。TF-CR在带有10,000个训练实例的8个数据集中的5个,以及带有90,000个训练实例的8个数据集中的7个中都优于未加权方法。这加强了TF-CR对中型以上训练集的有效性。

图1显示了四种方法在训练规模从1,000到90,000,步数为1,000时的趋势。除了仇恨言语数据集之外,TF-CR在较大的训练集上的性能优于其他所有方法。此外,TF-CR在5个数据集(20newsgroups, newsspace200, odptweets, restaurants 和 sentiment)的大多数训练规模上始终优于所有其他方法。
实验发现,数据量越大,TF-CR的效果越好,因为对词权重的计算更加准确了。
结论
我们引入了TF-CR,这是第一个加权方案,它可以利用训练数据中跨类别的单词分布进行文本分类。TF-CR背后的直觉是给那些只或主要出现在一个类别中的频繁单词更高的权重。这导致每个单词的类别特定权重,这允许一个嵌入表示来捕获不同类别单词的不同重要性。
我们在8个数据集上进行了实验,结果表明:
- 在7个具有大训练数据集的数据集上,该算法优于未加权词嵌入算法;
- 在5个数据集上,该算法在大多数训练规模下都能持续改进。
TF-CR的性能也始终优于TF-IDF和KLD。我们这里的目标是引入并验证TF-CR。为实现最先进的性能而进行的分类器参数的额外调优、添加特性等超出了本工作的范围。我们还打算通过进一步探索数据集之间的差异来扩展这项工作,以确定最大化TF-CR好处的数据集特征。
2108

被折叠的 条评论
为什么被折叠?



