根据提取的特征词计算特征值,即TF-IDF。采用向量空间模型(VSM)将文档表示成向量,并将文档输出为WEKA能处理的.arff格式。
直接上代码:
#!/user/bin/python
# -*- coding: utf-8 -*-
import codecs
import math
# 特征词列表
feture_word = [] # 存放特征词
feture_word_dic = {} # 存放特征词DF
feture_word_dic2 = {} # 计算并存放每个特征词的IDF
f = codecs.open('/Users/Administrator/Desktop/ni.txt','rb',encoding='utf-8')
for line in