在以生成标签对应关键词为核心思想的半监督文本分类中,现有的大多数方法都以一种与上下文无关的方式生成伪标签,因此,人类语言的模糊性和上下文依赖性一直被忽视。本文利用词出现的上下文化表示和种子词信息来自动区分同一词的多种解释,从而创建上下文化语料库,该语境化语料库进一步以迭代的方式训练分类器和扩展种子词,最终提升半监督文本表示的性能。
Overview
问题的定义还是那几种符号,跳过:
本文提出了一个框架,ConWea,构建语境话的弱监督模型。在这里,语境化体现在两个方面:语料库和种子词。因此,相应地开发了两种新技术来实现这两种语境化。
- 选择BERT作为实现中的一个例子,以生成每个word occurrence的上下文化向量。这里的word occurrence可以理解为一个词的不同分身,用来表示一个相同的单词在不同句子、上下文中出现所体现的语