ACL2020论文分享：基于上下文的弱监督文本分类

最新推荐文章于 2023-12-31 01:34:31 发布

烛之文

最新推荐文章于 2023-12-31 01:34:31 发布

阅读量2.1k

点赞数 4

文章标签：分类算法深度学习机器学习

本文链接：https://blog.csdn.net/u012032041/article/details/109057044

版权

1 前言
今天分享一篇关于文本分类的paper，论文来自2020ACL会议，其主要思想是：基于上下文的弱监督方法进行文本分类。论文标题为：Contextualized Weak Supervision for Text Classification，论文下载链接，论文也开源了代码。今天分享的这篇paper在内容上，与我之前分享的一篇2019ACL的paper——无监督文本分类(Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings)对比，有些类似之处：两篇都用使用先构建初始label种子词库，然后扩充类别词库的进行迭代分类的思路，不同的是在扩充词库与识别文本上。本文解决的问题在扩充类别词库中，有很多词是有很多词义的，不能笼统的单一表示，会影响文档的分类。为解决这个问题，作者提出基于上下文来解决一词多义的问题。下面详细介绍本篇论文。
2 Model
模型整体结构

上图为论文中文本分类的整体思路，可分为四个步骤，最后两个步骤是一个迭代过程。step1就是利用专家知识形成一个种子词库。

其实论文的核心在于**“上下文-Contextualization”**，这里涉及两个方面：上下文的词和上下文的文档。词的上下文其实就是一词多义的意思。因为相同的词，若有不同的意思，则表现在它的上下文上，如“window”，“apple”等。接下来详细说下如何生成上下文的词和上下文的文档，对应model的step2。

2.1 Document Contextualization——step2
(1)上下文表示(Contextualized Representation)
给定一个词 $w$ ，统计它在文档语料库中出现n次，对应表示为 $w_1$ ,… $w_n$ 。使用BERT预训练模型获取每个 $w_i$ 上下文表征向量 $b_{w_i}$ 。基于这样的假设：对于 $w_i$ ， $w_j$ ，如果二者词义相同，则它的上下文则类似，表现为cosine( $b_{w_i}$ , $b_{w_j}$ )值很高。有了这些信息，接着作者要计算词 $w$ 到底有几层含义，这里采用kmeans聚类的方法，对 $w$ 所有的上下文向量进行聚类，看能聚成几类。
词的上下文聚类示意图
论文对此进行了可视化说明：展示了词"window"，"penalty"上下文词向量聚类效果，这里 $K$ 选择的是2，分两类，表示有两个词义，用$0,$1来区分。看到这里，可能会疑问，在聚类过程中 $K$ 如何取值，像图中两个词都可以分成3类。对于该问题，作者也提供了一个自动选择 $K$ 的方法。
(2)上下文词的聚类中 $K$ 的学习
K的选择

公式表达的意思是，K类的所有中心 $c_i$ 之间的cosine值都要满足< $t$ 阈值，取满足条件最大的K。阈值 $t$ 由下面两个公式计算而来：

意思是计算每个种子词 $s$ 的上下文词的相似度，然后取中位数形成 $t (s)$ ，然后把所有的种子词的值取中位数得到 $t$ 。
(3)文档的上下文化
经过上面的步骤，就可以得到每个词有多少个词义，也表示为多少个上下文。具体用下面形式进行表示，最后将文档中每个 $w_i$ 进行替换，形成 contextualized document。如前面提到的，像“windows“有两层词义，就将它变成"windows$0"和"windows$1"。
词的上下文表示

##2.2 Text Classifier——step3
在step2形成了上下文的种子词库和文档后，在step3进行文本分类。
(1) 生成伪标签(Pseudo-Label)
有了类别词库，就可以为文本打上伪标签，方法是：文本若某类别词库中种子词tf值之和最高，那文本就属于该label。
(2)文本分类方法
对文本打标签后，就可以利用这些文本训练一个分类器，训练方法作者选用的是Hierarchical Attention Networks (HAN)。
文本分类模型

2.3 词库的扩充与迭代——step4
完成前三步骤，相当分类任务流程跑完。但是通过前几步形成的词库，还会存在两个问题：一是种子词库太少，需要扩充；二是种子词库中有些词属于那些label可能有歧义，需要消歧，主要是第一个问题。
具体方法就是作者为词定义了一个归属类别的排序系数，按照这个系数进行扩充，公式如下：
词的类别归属系数

公式中包含三个子指标， $LI(C_j,w)$ 是 $w$ 属于 $C_j$ 的概率， $F(C_j,w)$ 是 $w$ 是 $H A N$ 模型预测为 $C_j$ 的概率值tanh转化。
按照上述的方式，就可以对种子词库进行扩充，接着就可以在step3和step4进行迭代。
3 Experiment
dateset
论文主要在两个数据集进行验证测试，显示在对齐其他无监督的方法，论文的模型取得最好的效果；对比有监督方法，在NYT数据集上差距不大，在Newsgroup上差距还是挺大的。
4 结论
我个人觉得倒不是作者的整体解决方案——弱监督的文本分类新颖，而是在词的上下文化是值得去借鉴和探索的，因为这个点可以影响很多任务。另外再想：作者这一套无监督的方法，迭代下来，计算量很大，也会消耗一些人力，感觉还不如去标一些文本，然后在标注的文本的上去弱监督，是不是效果会更好些。也可能是由于工业上更依赖词库的缘故吧。

更多文章可关注笔者公众号：自然语言处理算法与实践

烛之文

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
5
评论
ACL2020论文分享：基于上下文的弱监督文本分类

1 前言今天分享一篇关于文本分类的paper，论文来自2020ACL会议，其主要思想是：基于上下文的弱监督方法进行文本分类。论文标题为：Contextualized Weak Supervision for Text Classification，论文下载链接，论文也开源了代码。今天分享的这篇paper在内容上，与我之前分享的一篇2019ACL的paper——无监督文本分类(Towards Unsupervised Text Classification Leveraging Experts and Wo
复制链接

扫一扫