第一、理论准备
1交叉计数函数
pivot_table(value,index,columns,aggfunc,fill_value)
# 参数说明
values:数据透视表中的值
index:数据透视表中的行(索引)
columns;数据透视表中的列
aggfunc:统计函数
fill_value:NA值的统一替换。
# 返回只说明:
数据透视表的结果
2 IDF 公式的实现程序:
IDF=log(文档总数/(包含该词的文档数)+1)
代码实现:
def hanlder(x):
return(numpy.log2(len(corpos)/(numpy.sum(x>0)+1)))
IDF=TF.apply(hanlder)
# 词频 TF
# 逆文档频率 IDF 是一个词的权重,它的大小与一个词的常见程度成反比
IDF=log(文档总数/(包含该词的文档数)+1)
# TF-IDF 权衡某个分词是否是关键词的指标,该值越大,是关键词的可能性也就越大。
TF-IDF=TF*IDF
第二、案例代码实践
# 搭建语料库
import os
import os.path
import codecs
filepaths = [];
filecontents = [];
for root, dirs, files in os.walk(