Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter论文解读

Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter

论文简介

该论文针对Twitter网站的信息进行关键词提取,因为Twitter网站文章/对话长度受到限制,现有的方法通常效果会急剧下降。作者使用循环神经网络(recurrent neural network,RNN)来解决这一问题,相对于其他方法取得了更好的效果。

Twitter限制长度在140个字。和几百字文档关键词抽取相比,从短文档中提取关键短语更加困难,因为短文档中很难使用到词频的统计特征。

数据少,基本没有公开的数据资源;标签的效果难以衡量。

作者提出的这种RNN模型,可以用于联合处理关键字排名、关键字短语生成和关键字短语排名步骤。该RNN在结构上包含两层,第一层用于捕捉关键字信息,第二层在其基础上使用序列标注方法。

论文实现

在这里插入图片描述

图1 作者提出的RNN关键词提取模型

RNN模型可以用以下公式来表示:
h t l = f h ( h t l − 1 , h t − 1 l )   = ∅ l ( U l h t − 1 l + W l h t l − 1 ) h_t^l=f_h(h_t^{l-1},h_{t-1}^l) \\ \ =\emptyset_l(U^lh_{t-1}^l+W^lh_t^{l-1}) htl=fh(htl1,ht1l) =l(Ulht1l+Wlhtl1)
其中 h t l h_t^l htl是在 t t t时刻第 l l l个层的结果; U l U^l Ul W l W^l Wl分别是 t − 1 t-1 t1时刻隐藏层的激活矩阵和 t t t时刻底层的激活层矩阵。当 l = 1 l=1 l=1时,隐藏层将被计算 h t 0 = x t h_t^0=x_t ht0=xt ∅ l \emptyset_l l是一个非线性函数,例如sigmoid激活函数。则第 l l l层的输出为:
y ~ t l = f o ( h t l ) = φ l ( V l h t l ) \widetilde y_t^l=f_o(h_t^l)\\ =\varphi_l(V^l h_t^l) y tl=fo(htl)=φl(Vlhtl)
其中 V l V^l Vl是第 l l l层隐藏层 h t l h_t^l htl的权重矩阵, φ l \varphi_l φl也是一种非线性矩阵,例如softmax激活函数。

联合的RNN计算如下:
h t 1 = f h ( x t , h t − 1 1 ) h_t^1=f_h(x_t,h_{t-1}^1) ht1=fh(xt,ht11)

h t 2 = f h ( h t 1 , h t − 1 2 ) h_t^2=f_h(h_t^1,h_{t-1}^2) ht2=fh(ht1,ht12)

y ~ t 1 = f o ( h t 1 ) \widetilde y_t^1=f_o(h_t^1) y t1=fo(ht1)

y ~ t 2 = f o ( h t 2 ) \widetilde y_t^2=f_o(h_t^2) y t2=fo(ht2)

最终的评估函数为:
J ( θ ) = α J 1 ( θ ) + ( 1 − α ) J 2 ( θ ) J(\theta)=\alpha J_1(\theta)+(1-\alpha)J_2(\theta) J(θ)=αJ1(θ)+(1α)J2(θ)
给出 N N N个训练序列 D = { ( x t , y t 1 , y t 2 ) t − 1 T n } n = 1 N D=\{ (x_t,y_t^1,y_t^2)_{t-1}^{T_n} \}_{n=1}^N D={(xt,yt1,yt2)t1Tn}n=1N,则子目标公式计算如下:
J 1 ( θ ) = 1 N ∑ n = 1 N ∑ t = 1 T n d ( y ~ t 1 , y t 1 ) J_1(\theta)=\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} d(\widetilde y_t^1,y_t^1) J1(θ)=N1n=1Nt=1Tnd(y t1,yt1)

J 2 ( θ ) = 1 N ∑ n = 1 N ∑ t = 1 T n d ( y ~ t 2 , y t 2 ) J_2(\theta)=\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} d(\widetilde y_t^2,y_t^2) J2(θ)=N1n=1Nt=1Tnd(y t2,yt2)

d ( a , b ) d(a,b) d(a,b)函数代表的是向量 a a a b b b之间的距离计算函数,可以是欧氏距离,交叉熵等计算函数。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IwxH3aE7-1663551616781)(D:\Python\project\weekly_work\2022-09-12_2022-09-18\imgs\image-20220919085642269.png)]

图1 在Twitter上实现的具体算法流程图

论文结果展示

表1 各种模型在Twitter文本关键字抽取的效果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RaggXd2d-1663551616782)(D:\Python\project\weekly_work\2022-09-12_2022-09-18\imgs\image-20220919090320696.png)]

词嵌入更新比不更新效果更好;不同窗口大小会导致模型的效果不一样;常规参数 α \alpha α设置大小也会影响模型抽取的效果。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KIVss8YP-1663551616783)(D:\Python\project\weekly_work\2022-09-12_2022-09-18\imgs\image-20220919091543020.png)]

图2 不同模型在使用不同的参数效果展示

论文总结

该论文使用RNN构建了一种有监督关键字抽取模型,相对于其他baseline模型,实现了较好的效果提升。主要在于直接从Twitter文本预料中直接可以抽取出关键字,然后再进行有监督的学习,所以效果才可以达到80%左右的效果。目前有监督效果都还可以,相对于无监督模型效果好特别多。

作者对比了RNN、R-CRF、CRF、LSTM、AKET等模型,确实作者提出的模型效果更加。作者还进行了训练数据大小、词共现窗口大小和常数 α \alpha α三者对模型的效果影响。

N、R-CRF、CRF、LSTM、AKET等模型,确实作者提出的模型效果更加。作者还进行了训练数据大小、词共现窗口大小和常数 α \alpha α三者对模型的效果影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Trouble..

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值