关键词提取——TF-IDF

最新推荐文章于 2024-04-13 04:31:46 发布

Muzi_Water

最新推荐文章于 2024-04-13 04:31:46 发布

阅读量340

点赞数

分类专栏：文本处理

本文链接：https://blog.csdn.net/Muzi_Water/article/details/83147225

版权

文本处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

词频-逆文档率TF-IDF(Term Frequency-Iverse Document Frequency)是一种依赖语料库的关键词提取方法。

该方法主要分为三步：

Step1: 计算词频（考虑文章长短不同，需要进行标准化）

词频（TM） = 某词出现的次数 / 文章总词数

Step2: 计算逆文档率（通常会根据语料库预先计算生成 “词逆文档率” 的idf.txt文件，用于jieba分词）

逆文档率（IDF） = log(语料库的总文档数 / 包含改词的文档数+1)

注：上式中分母加1是为了避免分母为零的情况。

Step3: 计算词频-逆文档率

TF-IDF = TF * IDF

TF-IDF的值与一个词在文档中出现的次数成正比，与该词在整个语料库中的出现成反比。该值越大，则作为关键词的优先级越高。

优点：简单快速。

缺点：1. 仅以“词频”衡量关键词不够全面，因为有时候重要的词可能出现的次数并不够多。

2. 不能体现词的位置信息，词语出现位置靠前与靠后并不是同等重要，往往全文第一段、每段首句的重要性高于其他位置。

3. 如果一个词在A类出现多，在其他类出现的少，但是包含该词的文章总量多，那么该词的逆文档率IDF值小，则TF-IDF值小。但是实际上该词能够标识A类。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Muzi_Water

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

关键词提取-TFIDF（一）

nlper_wx的博客

08-28

3861

系列文章 &check; 词向量&cross;Adam,sgd&cross; 梯度消失和梯度爆炸&cross;初始化的方法&cross; 过拟合&欠拟合&cross; 评价&损失函数的说明&cross; 深度学习模型及常用任务说明&cross;RNN的时间复杂度&cross;neo4j图数据库分词、词向量 TfidfVectorizer 基本介绍 TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数..

tf-idf关键词提取算法

loser的笔记

07-25

9811

tf-idf讲解以及python代码实现

参与评论您还未登录，请先登录后发表或查看评论

TF-IDF 提取文本关键词

呆萌的代Ma

03-01

1066

这篇博客主要是为了总结一下学习TF-IDF提取关键词的方法，同时整合一下代码。目的：使用jieba分词器提取文本中的主题 import jieba #分词器 import jieba.analyse import pickle #这个方法去除停用词 def drop_stopwords(contents, stopwords): contents_clean = [] ...

csdn博客推荐系统实战-6关键词提取-TF-IDF,TEXTRANK

生命不息，学习不止

04-22

2629

前面几篇写了相似度计算和话题模型，都是怎么找到相似的文章。2篇文章用各种方法向量化，然后余弦计算相似度，或者同在一个话题的2篇文章，把一整篇文章切成很多很多的词，有的模型或算法还要尽量在词多的情况下计算才准确。人类有归纳总结的能力，看了一篇英超曼城对曼联比赛的报道，会总结几个出几个关键词，英超曼联曼城得比，看了关键词就能知道这篇文章大概的内容，如果机器也能做到，那该多好啊！！！能，当然能，就...

TF-IDF与余弦相似性的应用（一）：自动提取关键词

wangqz1027的专栏

06-02

6867

作者：阮一峰日期： 2013年3月15日这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经

java 向量相似度计算 tf-idf_文本相似度——基于TF-IDF与余弦相似性

weixin_30902943的博客

02-13

1008

本篇博客，主要是描述一种计算文本相似度的算法，基于TF-IDF算法和余弦相似性。算法的描述请务必看阮一峰的博客，不然看不懂本篇博客，地址：在这里，主要讨论具体的代码的实现。过程如下：使用TF-IDF算法，找出两篇文章的关键词；每篇文章各取出若干个关键词(比如20个)，合并成一个集合，计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异，可以使用相对词频)；生成两篇文章各自的词频向量；计算两...

TF-IDF的Matlab程序,Tf-Idf详解及应用

weixin_39747075的博客

03-26

1131

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。为什么要用TF-IDF？因为计算机只能识别数字，对于一个一个的单词，计算机是看不懂的，更别说是一句话，或是一篇文章，而TF-I...

TF-IDF关键词提取算法_tfidf提取关键词

最新发布

2401_83817024的博客

04-13

345

【代码】TF-IDF关键词提取算法_tfidf提取关键词。

主题契合度的量化——基于TF-IDF算法及Rearrangement Inequality

ym_SYSU的博客

06-10

266

笔者定义the_total_score_of_keyword函数，以需要摘要的新闻（topic），分别对考生写下的第一篇文章（text1）与考生以第一篇为基础修改得到的第二篇文章（text2）关键词词频进行计算，求得text1与text2的得分，将（1-text2/text1）作为该考生文章修改后，关键词复现词频得分提高的比例。通过tkinter界面的数据接口，传入三篇文章，分别为：需要摘要的新闻（topic）、考生写下的第一篇文章（text1）与考生以第一篇为基础修改得到的第二篇文章（text2）。

spark TF-IDF特征提取生成文章关键词

1032851561的博客

07-18

1万+

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦： Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传 LaTex数学公式 UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I......

spark CountVectorizer+IDF提取中文关键词（scala）

u013090676的博客

08-22

4221

在提取关键词中，TF-IDF是比较常用的算法，spark mlib中也提供了TF以及IDF的方法，但是由于spark提供的TF算法是不可逆的，即无法获取TF的结果对应的原句子的文字，所以需要采用 CountVectorizer。提取关键词的过程如下： 1、中文分词以及去掉停用词：中文分词使用的是ansj：maven如下：  <dep...

使用jieba进行关键字词提取（基于TF-IDF）

apriaaaa的博客

05-16

5718

转自 https://blog.csdn.net/btod49/article/details/88409488 基于TF-IDF的关键词提取 TF-IDF:Term frequency–inverse document frequency TF-IDF方法通过计算单文本词频（Term Frequency， TF）和逆文本频率指数（Inverse Document Frequency，...

基于TF-IDF算法抽取文章关键词

weixin_33978016的博客

05-05

1850

2019独角兽企业重金招聘Python工程师标准>>> ...

java tf-idf提取关键字

qq_14950717的博客

12-07

4218

最近在研究nlp，nlp第一步就是分词，目前开源的工具中，java的有中科院的分词工具nlpir、还有word分词器，ansj_seg等，python的比较火的jieba，ansj_seg5.x版本之后提供了提取关键字的方法，jieba也提供了提取关键字的方法。提取关键字比较常用的算法有tf-idf、textrank。其中tf-idf是统计词频和逆文档词频，textrank是基于pagerank

Python TF-IDF 算法提取文本关键词

热门推荐

lalalawxt的博客

03-09

1万+

TF（Term Frequency）词频，在文章中出现次数最多的词，然而文章中出现次数较多的词并不一定就是关键词，比如常见的对文章本身并没有多大意义的停用词。所以我们需要一个重要性调整系数来衡量一个词是不是常见词。该权重为IDF（Inverse Document Frequency）逆文档频率，它的大小与一个词的常见程度成反比。在我们得到词频（TF）和逆文档频率（IDF）以后，将两个值...

R语言自然语言处理：关键词提取（TF-IDF）

R语言中文社区

03-14

1万+

作者：黄天元，复旦大学博士在读，目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验，推广并加深R语言在业界的应用。邮箱：huang.tian-yuan...

基于java版jieba分词实现的tfidf关键词提取

MapleStory的博客

10-21

6175

基于java版jieba分词实现的tfidf关键词提取文章目录基于java版jieba分词实现的tfidf关键词提取为了改善我的个性化新闻推荐系统的基于内容相似度的推荐算法效果，我尝试找寻关键词提取效果可能优于本来使用的ansj的tfidf的其它库，花了一番功夫后，发现tfidf算法本身并不复杂，但是训练tfidf的语料库可能才是性能的瓶颈，所以我找到了很有名的中文分词库jieba分词的语料库...

java 提取一篇文章的关键词（TF-IDF），结巴分词的使用

安然无恙的博客

01-13

4738

这是结巴分词的源码,很遗憾，maven 中提供的版本最新只到1.0.2 ，而1.0.3才支持提取关键词 下边是结巴分词的源码仓库 https://github.com/huaban/jieba-analysis 我们自己的项目想要用结巴分词可以有几种方式（1）下载最新结巴分词的源码，打包放入到自己的maven私服中，然后项目依赖就行（2）依赖maven中低版本的jar，然后把新版...

利用SVM和TF-IDF实现Python文档分类系统

资源摘要信息:"基于SVM和TF-IDF的文档分类——Python" 知识点： 1. SVM（支持向量机）概念及其在文档分类中的应用 SVM是一种常见的监督学习算法，主要用于分类问题。它通过在高维空间中找到一个最佳的决策边界，即...