定义
指代消解指在文本中确定代词指向哪个名词短语的问题
简单介绍
我们还是先举个例子:
今天晚上10点有国足的比赛,他们的对手是泰国队。在过去几年跟泰国队的较量中他们处于领先,只有一场惨败1-5。
指代消解要做的就是分辨文本中的他们
指的到底是国足
还是泰国队
。
通常我们为了解决类似的问题,需要准备好一些训练数据,用监督学习模型去处理。
类似于在上面的例子中,我们将第一个他们
和第二个他们
分别标记为A和B,将“国足”和两个泰国队分别标记为①②③
然后设计training data:
- 提取每个词与词的特征
可以提取上下文、词性之类的作为特征 - 特征提取完后,标记label,1为有关系,0为没有关系
data | label |
---|---|
X(A①) | 1 |
X(B①) | 1 |
X(A②) | 0 |
X(B②) | 0 |
X(A③) | 0 |
X(B③) | 0 |
- 获得上述训练数据后,可以建立模型
在新的文本中,需要判断代词指的是哪个名词的时候,只要将对应代词与名词抽取的特征放入模型做预测即可,提取其中概率最大的值作为真实名词的语义。