Abstract
本文提出了一个基于实例学习来学习span之间的相似度
Model
将NER问题形式化为span分类问题,可以处理嵌套实体
给定一个由T个单词的句子
X
=
(
w
1
,
w
2
,
.
.
.
,
w
T
)
X= (w_1,w_2,...,w_T)
X=(w1,w2,...,wT),首先列举出可能的span
S
(
X
)
\mathcal{S(X)}
S(X),非实体span被分配为NULL标签
该模型的思想非常简单:将一个实体及其训练集的span映射到特征向量空间,然后计算相似度。
本文定义邻域span的概率为:
P
(
s
j
∣
s
i
,
D
)
=
e
x
p
(
s
c
o
r
e
(
s
i
,
s
j
)
)
∑
s
k
∈
S
(
D
)
e
x
p
(
s
c
o
r
e
(
s
i
,
s
k
)
)
P(s_j|s_i,\mathcal{D})=\frac{exp(score(s_i,s_j))} {\sum_{s_k\in \mathcal{S(D)}}exp(score(s_i,s_k))}
P(sj∣si,D)=∑sk∈S(D)exp(score(si,sk))exp(score(si,sj))
score函数返回span
s
i
,
s
j
s_i,s_j
si,sj的相似度,然后计算span
s
i
s_i
si被分配标签
y
i
y_i
yi的概率:
P
(
y
i
∣
s
i
)
=
∑
s
j
∈
S
(
D
,
y
i
)
P
(
s
j
∣
s
i
,
D
)
P(y_i|s_i)=\sum_{s_j\in \mathcal{S(D,y_i)}}P(s_j|s_i,\mathcal{D})
P(yi∣si)=sj∈S(D,yi)∑P(sj∣si,D)
启示
- 模型的思想比较简单,但是让我想我想不出来,作者牛皮,代码牛皮。唯一不足就是时间复杂度太高了,要考虑全部的span概率。