论文链接:https://pan.baidu.com/s/1CrRm2TEEmhuvsSjNB4uF7g
提取码:0wlb
最近在读关系抽取方面的论文,发现 Distant supervision 的概念出现频率很高。 追根溯源,Mintz 在2013年首次提出使用远程监督的方式训练关系抽取模型。本文不对论文进行详细解释,仅用来记录本人认为的一些重点,方便日后查阅。
为什么使用远程监督
在远程监督应用于关系抽取领域之前,主要有三种用来训练模型的方式(learning paradigm),分别是Supervised Learning,Unsupervised Learning,Bootstrap Learning.
Supervised Learning
有监督方式需要对语料库句子中的实体进行人工标注以及为实体时间的关系打标签,数据标注工作不仅费时费力,而且模型的精确度很大程度受制于数据标注的准确性。在这种方式下,获取大规模的训练集并且要求高准确度非常难以实现。
Unsupervised Learning
与有监督方式相对应的是无监督。这种方式不需要数据带有标签,使用无结构文本即可。思路是从无结构文本中提取出实体字符串,之后对实体字符串进行聚类,使用聚类的结果生成关系字符串。换言之,实体对之间的关系定义为特征空间中两个实体字符串之间的距离。显而易见,无监督方式的缺点是,模型得到的两个实体对之间的关系是数学表示,需要map成我们人类认知的形式,这里的翻译可能不太准确,文章中的原话是paraticular knowledge base。mapping的过程十分复杂,这是无监督方式的缺点。
Bootstrap Learning
这种方式类似于小学一道经典的数学题:统计池塘中鱼的数量。思路是从池塘中随机抓一定数量的鱼打标记然后放生,一段时间后再抓一批鱼,根据这批鱼中带记号的鱼的数量推断出池塘中鱼的总数。
通俗来讲就是从数据集中选取一批种子实例(seed instances),学习完这些种子实例之后应用到大规模语料库中。这种学习方式形象地称之为自助学习。缺点显而易见,精确度低且不能解决语义漂移(semantic drift)
综上所述,每种学习方式都有很强的局限性。因此Mintz提出了一种新型的学习方式,称之为远程监督。
什么是远程监督
这里需要明确一个概念,远程监督是一种学习方式,而不是具体模型,类似于有监督学习、无监督学习一样。
字面理解,既然是远程监督,那么一定存在监督喽。我们之前提到,有监督就一定要有label,数据需要带标签,那么标签从哪儿来?答案是来自远方:)
远程监督的思路是:既然现有的数据集不存在标注好的数据,无监督的学习方式又存在种种问题,那么我采用一种方法将我的数据集标注好,然后进行有监督学习不就可以了?
使用远程监督的方式训练关系抽取模型
思考这样一个问题:假设数据集 D = { s 1 , s 2 , . . . , s n } D=\{s_1,s_2,...,s_n\} D={ s1,s2,...,sn},其中 s i s_i si<