自然语言处理-关键字提取（1）-TF-IDF算法

最新推荐文章于 2022-12-21 10:03:12 发布

不写代码的程序员~zs

最新推荐文章于 2022-12-21 10:03:12 发布

阅读量817

点赞数 1

分类专栏：自然语言处理文章标签： python 自然语言处理

本文链接：https://blog.csdn.net/m0_57064565/article/details/119033411

版权

自然语言处理专栏收录该内容

15 篇文章 1 订阅

订阅专栏

1.算法简介

TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。广泛用于Lucene,Solr,Elasticserach等搜索引擎,以及自然语言处理，文本关键字的提取。

2.算法分析

以以上文本为例：

说到关键字的提取，读者们第一个想到的就是找出现频次最高的词语，不过反复出现的词语并不一定是关键字，出现频次最高的往往是一些标点符号或者‘的’，‘是’等，他们显然不是关键字，他们是需要过滤掉，对结果毫无帮助的词，叫做停用词。因此我们在剩下有意义的词中，寻找关键字。

如果某个字在其它文章中很少出现，但在这篇文章中很常见，那么他正是我们要寻找的关键字。

TF-IDF算法是在词频的基础上，加入一个权重，较常见的词权重较小，少见的词，权重较大。这个权重就叫做IDF，也叫做逆文档频率。

词频（TF）= 词出现的次数 / 文档中词数

逆文档频率（IDF）=log(语料库文档总数 / (出现该词的文档总数+1))

加一是避免分母为0，因为有的词可能一次没有出现过。

TF-IDF=词频(TF)X逆文档频率（IDF）

python实现

import jieba.analyse as analyse   #引入analyse
 
with open('data/nba.txt',encoding='utf8') as f:
    lines = f.read()  
withWeight = True
#jieba.analyse.extract_tags提取关键字原理是基于IF-IDF算法
tags = analyse.extract_tags(lines,topK=20,withWeight=withWeight,allowPOS=())
    print(tags)  
    for tag in tags:
        print("tag: %s\t\t weight: %f" % (tag[0],tag[1]))

输出结果：

不写代码的程序员~zs

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
1
评论
自然语言处理-关键字提取（1）-TF-IDF算法

1.算法简介TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。广泛用于Lucene,Solr,Elasticserach等搜索引擎,以及自然语言处理，文本关键字的提取。2.算法分析以以上文本为例：说到关键字的提取，读者们第一个想到的就是找出现频次最高的词语，不过反复出现的词语
复制链接

扫一扫