中文短文本关键词抽取方案

最新推荐文章于 2024-08-16 08:31:06 发布

纽约的自行车

最新推荐文章于 2024-08-16 08:31:06 发布

阅读量3.5k

点赞数 3

分类专栏： NLP 文章标签：知识图谱语义网自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27668313/article/details/121618401

版权

目录

1. 前言

本文提出一种中文短文本关键词抽取方案，适用于无监督语料场景。
无监督关键词抽取算法虽然无需标注语料，但是效果一般。有监督学习方法效果好但是需要标注数据，很多业务场景下并没有标注好的数据。能否结合无监督学习方法和有监督学习方法的长处，用无监督方法标注语料，然后用于训练有监督方法？为此我们用实验证明了该方案是可行的，文末给出代码地址。

2. 数据

我们选用联通问答数据集中的问题数据，从问题中提取联通业务关键词。下载地址

3. 方案

首先使用SIFRank方法标注语料，然后训练NegSamplingNER命名实体识别模型。
在这里插入图片描述

3.1 SIFRank

无监督关键词抽取算法选用SIFRank。原方法使用ELMO语言模型得到词向量和句向量，我们将其替换为RoBerta模型。原方法使用清华的分词工具thulac，我们对比了jieba、thulac、百度lac和哈工大LTP四种工具，发现LTP效果最好，于是我们选用LTP作为分词和词性标注工具。
SIFRank将名词

最低0.47元/天解锁文章

纽约的自行车

关注

3
点赞
踩
19

收藏

觉得还不错? 一键收藏
13
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

纽约的自行车 CSDN认证博客专家 CSDN认证企业博客

码龄9年

94: 原创

5万+: 周排名

115万+: 总排名

17万+: 访问

: 等级

2325: 积分

76: 粉丝

225: 获赞

62: 评论

841: 收藏

私信

关注

热门文章

分类专栏

NLP 11篇
spark 1篇
图数据库 13篇
Arango 12篇
图像处理 1篇
加密算法 1篇
机器学习 3篇
数据库 2篇
算法设计 60篇
python编程 3篇

最新评论

少样本 N-way K-shot
空谷传声~: 很清晰
少样本 N-way K-shot
m0_70908229: n way k shot解释错误了，测试集分为了支持集和查询集，支持集中的类别为n 样本个数为k
少样本 N-way K-shot
红胖达爱学习: 文中“在少样本领域训练集和测试集的类别不存在交叉”这句话不一定吧，TFA论文中就提到，meta learning方法的小样本目标检测中，在微调阶段，就用了少量novel类的样本
少样本 N-way K-shot
085400922: 博主，我想问一下如果我需要分类的小样本数据只有三类，那么这个N是不是最高就能选3呀，
一文解释Micro-F1, Macro-F1，Weighted-F1
叶庭云: 这篇博客主要讲解了多分类任务中的micro-f1，macro-f1，weighted-f1的概念和计算方法。首先介绍了精确率和召回率的基本概念，然后通过一个图像分类模型的例子来解释了F1的计算方法。接着详细介绍了macro-f1、weighted-f1和micro-f1的计算方法和特点。最后与sklearn库的classification_report函数进行对比，发现其中的macro avg和weighted avg与我们的计算结果一致，但没有micro avg的结果，这是因为micro-f1和accuracy的计算结果一致。同时，精确率、召回率和精度的micro avg也都等于0.60，解释了为什么sklearn分类报告只显示accuracy。最后，解释了micro-F1、accuracy、micro-precision和micro-recall等式成立的原因，即在某一类别中的False Positive样本一定是其他类别的False Negative样本。

最新文章

目录

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。