TF-IDF值和文本向量化

最新推荐文章于 2024-08-06 13:49:14 发布

Fifth quadrant

最新推荐文章于 2024-08-06 13:49:14 发布

阅读量8.6k

点赞数 2

分类专栏： Python实战自然语言处理文章标签： python

本文链接：https://blog.csdn.net/Junkichan/article/details/51883274

版权

该博客介绍如何利用TF-IDF方法计算特征值，将文本转换为向量空间模型，便于后续分析。通过Python实现，最终将文档转换为.arff文件，适配WEKA工具。

摘要由CSDN通过智能技术生成

根据提取的特征词计算特征值，即TF-IDF。采用向量空间模型（VSM）将文档表示成向量，并将文档输出为WEKA能处理的.arff格式。

直接上代码：

#!/user/bin/python
# -*- coding: utf-8 -*-

import codecs
import math

# 特征词列表
feture_word = []  # 存放特征词
feture_word_dic = {}  # 存放特征词DF
feture_word_dic2 = {}  # 计算并存放每个特征词的IDF

f = codecs.open('/Users/Administrator/Desktop/ni.txt','rb',encoding='utf-8')
for line in