Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter
论文简介
该论文针对Twitter网站的信息进行关键词提取,因为Twitter网站文章/对话长度受到限制,现有的方法通常效果会急剧下降。作者使用循环神经网络(recurrent neural network,RNN)来解决这一问题,相对于其他方法取得了更好的效果。
Twitter限制长度在140个字。和几百字文档关键词抽取相比,从短文档中提取关键短语更加困难,因为短文档中很难使用到词频的统计特征。
数据少,基本没有公开的数据资源;标签的效果难以衡量。
作者提出的这种RNN模型,可以用于联合处理关键字排名、关键字短语生成和关键字短语排名步骤。该RNN在结构上包含两层,第一层用于捕捉关键字信息,第二层在其基础上使用序列标注方法。
论文实现
RNN模型可以用以下公式来表示:
h
t
l
=
f
h
(
h
t
l
−
1
,
h
t
−
1
l
)
=
∅
l
(
U
l
h
t
−
1
l
+
W
l
h
t
l
−
1
)
h_t^l=f_h(h_t^{l-1},h_{t-1}^l) \\ \ =\emptyset_l(U^lh_{t-1}^l+W^lh_t^{l-1})
htl=fh(htl−1,ht−1l) =∅l(Ulht−1l+Wlhtl−1)
其中
h
t
l
h_t^l
htl是在
t
t
t时刻第
l
l
l个层的结果;
U
l
U^l
Ul和
W
l
W^l
Wl分别是
t
−
1
t-1
t−1时刻隐藏层的激活矩阵和
t
t
t时刻底层的激活层矩阵。当
l
=
1
l=1
l=1时,隐藏层将被计算
h
t
0
=
x
t
h_t^0=x_t
ht0=xt,
∅
l
\emptyset_l
∅l是一个非线性函数,例如sigmoid激活函数。则第
l
l
l层的输出为:
y
~
t
l
=
f
o
(
h
t
l
)
=
φ
l
(
V
l
h
t
l
)
\widetilde y_t^l=f_o(h_t^l)\\ =\varphi_l(V^l h_t^l)
y
tl=fo(htl)=φl(Vlhtl)
其中
V
l
V^l
Vl是第
l
l
l层隐藏层
h
t
l
h_t^l
htl的权重矩阵,
φ
l
\varphi_l
φl也是一种非线性矩阵,例如softmax激活函数。
联合的RNN计算如下:
h
t
1
=
f
h
(
x
t
,
h
t
−
1
1
)
h_t^1=f_h(x_t,h_{t-1}^1)
ht1=fh(xt,ht−11)
h t 2 = f h ( h t 1 , h t − 1 2 ) h_t^2=f_h(h_t^1,h_{t-1}^2) ht2=fh(ht1,ht−12)
y ~ t 1 = f o ( h t 1 ) \widetilde y_t^1=f_o(h_t^1) y t1=fo(ht1)
y ~ t 2 = f o ( h t 2 ) \widetilde y_t^2=f_o(h_t^2) y t2=fo(ht2)
最终的评估函数为:
J
(
θ
)
=
α
J
1
(
θ
)
+
(
1
−
α
)
J
2
(
θ
)
J(\theta)=\alpha J_1(\theta)+(1-\alpha)J_2(\theta)
J(θ)=αJ1(θ)+(1−α)J2(θ)
给出
N
N
N个训练序列
D
=
{
(
x
t
,
y
t
1
,
y
t
2
)
t
−
1
T
n
}
n
=
1
N
D=\{ (x_t,y_t^1,y_t^2)_{t-1}^{T_n} \}_{n=1}^N
D={(xt,yt1,yt2)t−1Tn}n=1N,则子目标公式计算如下:
J
1
(
θ
)
=
1
N
∑
n
=
1
N
∑
t
=
1
T
n
d
(
y
~
t
1
,
y
t
1
)
J_1(\theta)=\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} d(\widetilde y_t^1,y_t^1)
J1(θ)=N1n=1∑Nt=1∑Tnd(y
t1,yt1)
J 2 ( θ ) = 1 N ∑ n = 1 N ∑ t = 1 T n d ( y ~ t 2 , y t 2 ) J_2(\theta)=\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} d(\widetilde y_t^2,y_t^2) J2(θ)=N1n=1∑Nt=1∑Tnd(y t2,yt2)
d ( a , b ) d(a,b) d(a,b)函数代表的是向量 a a a和 b b b之间的距离计算函数,可以是欧氏距离,交叉熵等计算函数。
论文结果展示
词嵌入更新比不更新效果更好;不同窗口大小会导致模型的效果不一样;常规参数 α \alpha α设置大小也会影响模型抽取的效果。
论文总结
该论文使用RNN构建了一种有监督关键字抽取模型,相对于其他baseline模型,实现了较好的效果提升。主要在于直接从Twitter文本预料中直接可以抽取出关键字,然后再进行有监督的学习,所以效果才可以达到80%左右的效果。目前有监督效果都还可以,相对于无监督模型效果好特别多。
作者对比了RNN、R-CRF、CRF、LSTM、AKET等模型,确实作者提出的模型效果更加。作者还进行了训练数据大小、词共现窗口大小和常数 α \alpha α三者对模型的效果影响。
N、R-CRF、CRF、LSTM、AKET等模型,确实作者提出的模型效果更加。作者还进行了训练数据大小、词共现窗口大小和常数 α \alpha α三者对模型的效果影响。