python提取关键词分类_用Py做文本分析5:关键词提取

1.关键词提取关键词指的是原始文档的和核心信息,关键词提取在文本聚类、分类、自动摘要等领域中有着重要的作用。针对一篇语段,在不加人工干预的情况下提取出其关键词首先进行分词处理关键词分配:事先给定关键词库,然后在文档中进行关键词检索关键词提取:根据某种规则,从文档中抽取最重要的词作为关键词有监督:抽取出候选词并标记是否为关键词,然后训练相应的模型无监督:给词条打分,并基于最高分抽取无监督学习——基于...
摘要由CSDN通过智能技术生成

1.关键词提取

关键词指的是原始文档的和核心信息,关键词提取在文本聚类、分类、自动摘要等领域中有着重要的作用。

针对一篇语段,在不加人工干预的情况下提取出其关键词

首先进行分词处理

关键词分配:事先给定关键词库,然后在文档中进行关键词检索

关键词提取:根据某种规则,从文档中抽取最重要的词作为关键词

有监督:抽取出候选词并标记是否为关键词,然后训练相应的模型

无监督:给词条打分,并基于最高分抽取

无监督学习——基于词频

思路1:按照词频高低进行提取

大量高频词并无多少意义(比如停用词)

即使出现频率相同,常见词的价值也明显低于不常见词

思路2:按照词条在文档中的重要性进行提取

2.TF-IDF算法

2.1TF-IDF介绍

IF-IDF是信息检索中最常用的一种文本关键信息表示法,其基本的思想是如果某个词在一篇文档中出现的频率高,并且在语料库中其他文档中很少出现,则认为这个词具有很好的类别区分能力。

TF:Term Frequency,衡量一个term在文档中出现得有多频繁。平均而言出现越频繁的词,其重要性可能就越高。考虑到文章长度的差异,需要对词频做标准化:

TF(t)=(t出现在文档中的次数)/(文档中的term总数)

TF(t)=(t出现在文档中的次数)/(文档中出现最多的term的次数)

IDF:Inverse Document Frequency,逆文档概率,用于模拟在该语料的实际使用环境中,目标t

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值