TF-IDF算法实现

最新推荐文章于 2021-10-31 00:36:05 发布

AI算法工程师YC

最新推荐文章于 2021-10-31 00:36:05 发布

阅读量582

点赞数

分类专栏：深度学习自然语言处理NLP 文章标签： TF-IDF算法实现

本文链接：https://blog.csdn.net/qq_36134437/article/details/103057549

版权

本文介绍了TF-IDF算法的Python、NLTK、Sklearn和Jieba四种实现方式，以及其在搜索引擎、关键词提取、文本相似性和文本摘要中的应用。同时，探讨了TF-IDF算法的不足，如无法有效反映单词重要性和特征词分布，以及位置因素、生僻词误判、类别间分布忽视和重要信息提取不佳等问题。最后提到了TF-IDF的改进算法TF-IWF。

摘要由CSDN通过智能技术生成

Python实现TF-IDF算法

# -*- coding: utf-8 -*-
from collections import defaultdict
import math
import operator
 
"""
函数说明:创建数据样本
Returns:
    dataset - 实验样本切分的词条
    classVec - 类别标签向量
"""
def loadDataSet():
    dataset = [ ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],    # 切分的词条
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid'] ]
    classVec = [0, 1, 0, 1, 0, 1]  # 类别标签向量，1代表好，0代表不好
    return dataset, classVec
 
 
"""
函数说明：特征选择TF-IDF算法
Parameters:
     list_words:词列表
Returns:
     dict_feature_select:特征选择词字典
"""
def feature_select(list_words):
    #总词频统计
    doc_frequency=defaultdict(int)
    for word_list in list_words:
        for i in word_list:
            doc_frequency<