Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter论文解读

最新推荐文章于 2024-10-06 21:14:34 发布

Trouble..

最新推荐文章于 2024-10-06 21:14:34 发布

阅读量199

点赞数

分类专栏：关键词抽取文章标签： twitter 机器学习自然语言处理数据挖掘

本文链接：https://blog.csdn.net/qq_45041871/article/details/126927466

版权

关键词抽取专栏收录该内容

16 篇文章 3 订阅

订阅专栏

Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter

论文简介

该论文针对Twitter网站的信息进行关键词提取，因为Twitter网站文章/对话长度受到限制，现有的方法通常效果会急剧下降。作者使用循环神经网络（recurrent neural network，RNN）来解决这一问题，相对于其他方法取得了更好的效果。

Twitter限制长度在140个字。和几百字文档关键词抽取相比，从短文档中提取关键短语更加困难，因为短文档中很难使用到词频的统计特征。

数据少，基本没有公开的数据资源；标签的效果难以衡量。

作者提出的这种RNN模型，可以用于联合处理关键字排名、关键字短语生成和关键字短语排名步骤。该RNN在结构上包含两层，第一层用于捕捉关键字信息，第二层在其基础上使用序列标注方法。

论文实现

在这里插入图片描述

图1 作者提出的RNN关键词提取模型

RNN模型可以用以下公式来表示：
$h_t^l=f_h(h_t^{l-1},h_{t-1}^l) \\ \ =\emptyset_l(U^lh_{t-1}^l+W^lh_t^{l-1})$
其中 $h_t^l$ 是在 $t$ 时刻第 $l$ 个层的结果； $U^l$ 和 $W^l$ 分别是 $t - 1$ 时刻隐藏层的激活矩阵和 $t$ 时刻底层的激活层矩阵。当 $l = 1$ 时，隐藏层将被计算 $h_t^0=x_t$ ， $\emptyset_l$ 是一个非线性函数，例如sigmoid激活函数。则第 $l$ 层的输出为：
$\widetilde y_t^l=f_o(h_t^l)\\ =\varphi_l(V^l h_t^l)$
其中 $V^l$ 是第 $l$ 层隐藏层 $h_t^l$ 的权重矩阵， $\varphi_l$ 也是一种非线性矩阵，例如softmax激活函数。

联合的RNN计算如下：
$h_t^1=f_h(x_t,h_{t-1}^1)$

$h_t^2=f_h(h_t^1,h_{t-1}^2)$

$\widetilde y_t^1=f_o(h_t^1)$

$\widetilde y_t^2=f_o(h_t^2)$

最终的评估函数为：
$J(\theta)=\alpha J_1(\theta)+(1-\alpha)J_2(\theta)$
给出 $N$ 个训练序列 $D=\{ (x_t,y_t^1,y_t^2)_{t-1}^{T_n} \}_{n=1}^N$ ，则子目标公式计算如下：
$J_1(\theta)=\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} d(\widetilde y_t^1,y_t^1)$

$J_2(\theta)=\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} d(\widetilde y_t^2,y_t^2)$

$d (a, b)$ 函数代表的是向量 $a$ 和 $b$ 之间的距离计算函数，可以是欧氏距离，交叉熵等计算函数。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IwxH3aE7-1663551616781)(D:\Python\project\weekly_work\2022-09-12_2022-09-18\imgs\image-20220919085642269.png)]$

图1 在Twitter上实现的具体算法流程图

论文结果展示

表1 各种模型在Twitter文本关键字抽取的效果

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RaggXd2d-1663551616782)(D:\Python\project\weekly_work\2022-09-12_2022-09-18\imgs\image-20220919090320696.png)]$

词嵌入更新比不更新效果更好；不同窗口大小会导致模型的效果不一样；常规参数 $\alpha$ 设置大小也会影响模型抽取的效果。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KIVss8YP-1663551616783)(D:\Python\project\weekly_work\2022-09-12_2022-09-18\imgs\image-20220919091543020.png)]$