一、论文
二、概要
- nlp中的实体关系抽取方法总结:https://zhuanlan.zhihu.com/p/77868938
- 联合抽取顺序:片段排列抽取实体,然后提取实体对进行关系分类;
将片段排列方式生成的候选实体span,进行实体类型SoftMax分类;对于候选实体span不为None的实体span组成实体pair进行关系SoftMax分类;
笔者在前文介绍实体重叠问题时,已经介绍了这种基于片段排列的方式,基于片段排列的方式[7],显示的提取所有可能的片段排列,由于选择的每一个片段都是独立的,因此可以直接提取span-level的特征去解决重叠实体问题。
实体span的编码表示:在span范围内采取注意力机制与基于原始输入的LSTM编码进行交互。
- 存在问题:
对于含T个token的文本,理论上共有 [公式] 种片段排列,计算复杂度极高。如果文本过长,会产生大量的负样本,在实际中需要限制span长度并合理削减负样本。
进行关系判断时,也会造成实体冗余,提高错误率。