本文考虑在弱监督文本分类情境下使用元数据(metadata),利用元数据作为一个额外的薄弱监督的来源。具体来说,本文将文本数据和元数据组织到一个文本丰富的网络中,并采用motif来捕获元数据的适当组合,并在迭代过程中对motif实例以及种子词进行排序,选择重要的motfi作为种子motif。
Introduction
除了文本信息之外,元数据信息(例如,作者、出版年份)在各个领域(例如,新闻文章、社交媒体帖子和科学论文)都可以广泛获得,它可以作为一个强大的、互补的弱监督来源。
元数据通常是多类型的,每种类型和类型组合可能具有非常不同的语义,可能并不同等重要。而且,即使是单一元数据类型中的实体也可能是嘈杂的。图1(a)中的例子指出,在进行单纯的文本分类时,年份没有作者那么有用,因为一个作者和可能专注于一个领域,其领域对分类的结果具有明显的