构建词频矩阵, 从而得到TF、IDF

最新推荐文章于 2022-06-19 21:28:50 发布

拒绝气泡

最新推荐文章于 2022-06-19 21:28:50 发布

阅读量2.4k

点赞数 1

分类专栏： NLP 文章标签：词频矩阵计算tf、idf idf tf

本文链接：https://blog.csdn.net/CSDNgaoqingrui/article/details/90770255

版权

本文介绍了如何构建词频矩阵，并详细阐述了TF-IDF的概念，通过计算词频（TF）和逆文档频率（IDF），用于衡量词汇在文档中的重要性，为文本分析提供关键指标。

摘要由CSDN通过智能技术生成

""" 构建词频矩阵, 从而得到TF、IDF"""

import csv
import math
import re
import jieba
import numpy as np
import scipy.sparse as ss

# 加载补充词典
jieba.load_userdict("./words/dict.txt")
stopwords = []  # 去除停用词
for stop in open("./words/stop_words", 'r'):
    stopwords.append(stop.split('\n')[0])
    stopwords.append('')
    stopwords.append(' ')

stop_word = [u'的', u'是', u'和', u'丨']


# 预切断句子，以免得到太多无意义（不是中文、英文、数字）的字符串
def text_filter(line):
    line_arr = []
    w = u'#'
    # for line in texts:
    for word in stop_word:
        line = line.replace(word, w)
    line_arr.append(line)

    for a in line_arr:
        # 这个正则表达式匹配的是任意非中文、非英文、非数字，因此它的意思就是用任意非中文、非英文的字符断开句子
        for t in re.split(u'[^\u4e00-\u9fa5a-zA-Z]+', a):
            if t:
                yield t


def cut(txt):
    word_list = []
    for

最低0.47元/天解锁文章

拒绝气泡

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
构建词频矩阵, 从而得到TF、IDF

""" 构建词频矩阵, 从而得到TF、IDF"""import csvimport mathimport reimport jiebaimport numpy as npimport scipy.sparse as ss# 加载补充词典jieba.load_userdict("./words/dict.txt")stopwords = [] # 去除停用词for sto...
复制链接

扫一扫

专栏目录