Abstract & Introduction & Related Work
- 研究任务
用属于同一语义类别的新实体来扩展一个小的种子实体集,是一项重要的任务。 - 已有方法和相关工作
- 现有的实体集扩展方法通过自适应选择上下文特征和提取新实体来引导种子实体集。
- 面临挑战
- 实体集扩展的一个关键挑战是避免选择模棱两可的上下文特征,因为这将改变类的语义,导致在以后的迭代中出现累积性错误
- 创新思路
- 利用自动生成的类名来解决语义漂移问题。
- 实验结论
在两个数据集上的实验表明,我们的框架产生了高质量的类名,并大大超过了以前的sota
一个基于迭代的框架,for 扩展实体集合,分为三个模块
- 类名生成模块
- 类名排名模块
- 类引导的实体选择模块
- 我们提出了一个新的集合扩展框架,利用类名来指导扩展过程,并在每次迭代中对整个集合进行过滤,以解决语义漂移问题
- 我们设计了一个自动类名生成算法,通过动态探测预训练的语言模型来输出高质量的类名
- 在两个来自不同领域的公共数据集上进行的实验表明,我们的方法与当前sota相比具有优越性能
Class-Guided Entity Set Expansion
Class Name Generation
类名生成模块输入一个小型的实体集合,并为这些实体生成一组候选类名, 我们通过自动构建类探测查询和迭代查询预训练的LM以获得多个类名称来建立这个模块。
运用六种Hearst模式,来构建类探测查询:重复这个随机挑选的过程,我们能构建一个查询的集合然后将其丢到一个预训练语言模型中通过预测被mask的token来得到可能的类名
这种方法有一个缺陷就是只能获得一元类名,为了得到多元类名,设计了一种改进的beam search算法来迭代地query一个预训练语言模型。
得到k个最可能的词后,继续对这k个词进行query,最多重复三次。
因此,对于每个Hearst模式和从当前集合中随机选择的三个实体,我们将得到一个候选类名集合。最后,我们将所有这些集合的联合体作为我们的候选类名库,表示为C。注意,在这个模块中,我们重点关注候选类名库C的召回率,而不考虑其精度,因为下一个模块将根据提供的文本语料库进一步对这些类名进行排序和选择
Class Name Ranking
一个简单的策略将这些类名进行排名是基于在前一个模块中的出现次数,但是这样是次优的,因为更短的类名的出现的次数更频繁,因此需要使用其他方法
首先对c构造六个Hearst模式,然后用这六个vector来跟e做内积,内部的max用来找到最大的那一个,外部的max用于找到top k跟e最相似的出现
这个算法是用来找到k个出现过的实体e匹配c的所有query, 因此,它改进了以前只利用实体和类名的上下文自由表示的相似性度量
衡量实体e和类名c之间的相似性
给一个实体集合E,可以得到一系列的 ranked list,然后将类c在集合中的 1/排名 总和加起来,这个最终的排名列表显示了每个类名能够代表当前实体集的程度的顺序。因此,我们选择排名第一的最好的一个作为正面类,表示为
c
p
c_p
cp
在选取正类的同时,选取一个集合的负类来帮助其约束语义
为了实现这一目标,我们假设初始用户提供的种子集
E
0
E_0
E0 中的实体肯定属于 中的实体肯定属于 属于目标类别。
然后,我们选择那些 在所有与
E
0
E_0
E0 中的实体相对应的列表中排名低于
c
p
c_p
cp 的类名。中的实体对应的所有列表中选择排名低于
c
p
c_p
cp 的类名,并将其作为负面类名。我们 我们把这个负面的类名集合称为
C
N
C_N
CN,并使用它们来指导下面的扩展过程。用它们来指导下面的集合扩展过程。
Class-Guided Entity Selection
在这个模块中,我们利用前面挑选的正类名和负类名来帮助选择实体加入到集合中
第一个函数利用正类名来计算每一个实体的得分
第二个函数计算候选类名和以及在当前集合中已经存在的类名,基于它们的上下文无关表示,注意这里是采样一个小的实体集合E来代替整个实体集合
利用局部分数和全局分数来计算一个最终得分
聚合,min-max归一化
最后输出:
Experiments
Conclusions
在本文中,我们提出了一个新的实体集扩展框架,它可以使用预先训练好的LM来生成种子集的候选类名,根据提供的文本语料库对其进行排序,并以选定的类名指导实体选择过程。在Wiki和APR数据集上进行的大量实验证明了我们的框架在类名预测和实体集扩展方面的有效性。在未来,我们计划将该方法的范围从扩展具体的实体集扩展到更抽象的概念集。例如,我们可以扩展{“机器翻译”、“信息提取”、“句法解析”}这个集合,以获得更多的NLP任务概念。另一个有趣的方向是通过语言模型探测生成类名层次结构
Remark
把我看烦了,让人头大的,非常不优美,这种paper只会成为历史中的过客