TF-IDF算法原理及python 学习

最新推荐文章于 2023-12-31 22:33:59 发布

登高博见凌云志

最新推荐文章于 2023-12-31 22:33:59 发布

阅读量550

点赞数

分类专栏：自然语言处理文章标签： python

本文链接：https://blog.csdn.net/sinat_40631989/article/details/105560454

版权

自然语言处理专栏收录该内容

9 篇文章 1 订阅

订阅专栏

大家好，今天跟大家介绍一下TF-IDF算法及python实现。

TF-IDF介绍

1、什么是TF-IDF
TF-IDF是一种统计方法，用以评估一个词对于一篇文章或语料库中一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。
2、TF-IDF原理
TF（Term Frequency) 表示词频，即一个词在一篇文章中出现的次数，但在实际应用时会有一个漏洞，就是篇幅长的文章给定词出现的次数会更多一点。因此我们需要对次数进行归一化，通常用给定词的次数除以文章的总词数。

这其中还有一个漏洞，就是 ”的“ ”是“ ”啊“ 等类似的词在文章中出现的此时是非常多的，但是这些大多都是没有意义词，对于判断文章的关键词几乎没有什么用处，我们称这些词为”停用词“，也就是说，在度量相关性的时候不应该考虑这些词的频率。
IDF（Inverse Document Frequency）逆文本频率指数，如果包含关键词w的文档越少，则说明关键词w具有很好的类别区分能力。某一关键词的IDF，可以用总的文章数量除以包含该关键词的文章的数量，然后对结果取对数得到
在这里插入图片描述
注：分母加1是为了避免没有包含关键词的文章时分母是0的情况

一个词预测主题的能力越强，权重就越大，反之，权重越小，因此一个词的TF-IDF就是：
在这里插入图片描述
在使用 TF-IDF 算法之前，需要先对文本进行预处理，如分词、去除停用词。在运算之前，需要先统计每篇文章中的每个词语出现的次数。
3、TF-IDF的使用场景
TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。
4、TF-IDF算法实现简单快速，但是仍有许多不足之处：
（1）没有考虑特征词的位置因素对文本的区分度，词条出现在文档的不同位置时，对区分度的贡献大小是不一样的。
（2）按照传统TF-IDF，往往一些生僻词的IDF(反文档频率)会比较高、因此这些生僻词常会被误认为是文档关键词。
（3）传统TF-IDF中的IDF部分只考虑了特征词与它出现的文本数之间的关系，而忽略了特征项在一个类别中不同的类别间的分布情况。
（4）对于文档中出现次数较少的重要人名、地名信息提取效果不佳。

python3代码示例

# -*- coding: utf-8 -*-
from collections import defaultdict
import math
import operator
 
"""
函数说明:创建数据样本
Returns:
    dataset - 实验样本切分的词条
    classVec - 类别标签向量
"""
def loadDataSet():
    dataset = [ ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],    # 切分的词条
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid'] ]
    classVec = [0, 1, 0, 1, 0, 1]  # 类别标签向量，1代表好，0代表不好
    return dataset, classVec
 
 
"""
函数说明：特征选择TF-IDF算法
Parameters:
     list_words:词列表
Returns:
     dict_feature_select:特征选择词字典
"""
def feature_select(list_words):
    #总词频统计
    doc_frequency=defaultdict(int)
    for word_list in list_words:
        for i in word_list:
            doc_frequency[i]+=1
 
    #计算每个词的TF值
    word_tf={}  #存储没个词的tf值
    for i in doc_frequency:
        word_tf[i]=doc_frequency[i]/sum(doc_frequency.values())
 
    #计算每个词的IDF值
    doc_num=len(list_words)
    word_idf={} #存储每个词的idf值
    word_doc=defaultdict(int) #存储包含该词的文档数
    for i in doc_frequency:
        for j in list_words:
            if i in j:
                word_doc[i]+=1
    for i in doc_frequency:
        word_idf[i]=math.log(doc_num/(word_doc[i]+1))
 
    #计算每个词的TF*IDF的值
    word_tf_idf={}
    for i in doc_frequency:
        word_tf_idf[i]=word_tf[i]*word_idf[i]
 
    # 对字典按值由大到小排序
    dict_feature_select=sorted(word_tf_idf.items(),key=operator.itemgetter(1),reverse=True)
    return dict_feature_select
 
if __name__=='__main__':
    data_list,label_list=loadDataSet() #加载数据
    features=feature_select(data_list) #所有词的TF-IDF值
    print(features)
    print(len(features))

结果如下：
在这里插入图片描述
Jieba实现TF-IDF算法

import jieba.analyse

text = '2020年是一个值得让人记忆的一年，今年疫情严重，但是我们万众一心，众志成城，有效地解决问题。' \
       '2020年是十三五的最后一年，要实现全面建成小康社会，我们每个人都要去为之努力奋斗'

keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=True, allowPOS=())
print(keywords)

结果如下：
在这里插入图片描述
修改一下topK=10值，结果如下：

简单介绍一下：
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本（故将语句可以直接赋值，也可打开文件操作。）
topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20。
withWeight 为是否一并返回关键词权重值，默认值为 False。
allowPOS 仅包括指定词性的词，默认值为空，即不筛选。