【无监督短语抽取】SIFRank论文详读

最新推荐文章于 2024-06-25 00:19:59 发布

尽量不躺平的kayla

最新推荐文章于 2024-06-25 00:19:59 发布

阅读量1.1k

点赞数

分类专栏：文本抽取 nlp 文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/skying159/article/details/126952152

版权

nlp 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

SIFRank: A New Baseline for Unsupervised

Keyphrase Extraction Based on Pre-Trained
Language Model

Reading Date: September 19, 2022
Type: Thesis

论文：https://ieeexplore.ieee.org/document/8954611

项目：https://github.com/yukuotc/SIFRank_zh

SIFRank: 一个基于预训练模型的无监督关键词抽取的模型

它由两部分组成：句向量模型SIF和自回归预训练模型ELMO。

在短文本中它表现优异。

document segmentation和contextual word embeddings alignment在保证accuracy的前提下加速了SIFRank。

我们用position-biased weight升级SIFRank to SIFRank+，极大地提高了在长文本中的表现。

传统无监督方法

基于统计信息
- 基于n-gram，语法，词频等
基于图
- 例：textrank

SIFRank模型

在这里插入图片描述

document进行分词和词性标注
提取其中的noun phrases
利用ELMO得到字向量和NP向量
利用SIF模型将字向量和NP向量投影成同一层、同一维度的向量
计算两个向量间的cos相似度，选择top n作为最后keyphrases，同时也可以得到分数

SIF模型

选择SIF作为sentence embedding model的原因是

它适配大部分预训练模型
通过SIF模型得到的句向量可以很好地反应document的主题

在这里插入图片描述

Model Domain Adaption

在这里插入图片描述

weight_com是提前在大型语料里统计的词频。weight_dom则是在垂直领域上的统计词频。

Document Segmentation

把文章输入ELMO之前，先将文章分块，这样可以并行独立运算。

在这里插入图片描述

Embedding Alignment

因为文章分块后，丢失了完整的上下文信息，这里用了EA方法进行保留。

在这里插入图片描述

SIFRank+

POSITION-BIASED WEIGHT FOR LONG DOCUMENTS

在这里插入图片描述

尽量不躺平的kayla

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【无监督短语抽取】SIFRank论文详读

SIFRank: 一个基于预训练模型的无监督关键词抽取的模型。它由两部分组成：句向量模型SIF和自回归预训练模型ELMO，在短文本中它表现优异。document segmentation和contextual word embeddings alignment在保证accuracy的前提下加速了SIFRank。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。