title: data_mining实验总结-100万篇幅文本分类
date: 2017-12-16 13:45:57
updated: 2020-03-26 12:17:53
categories: 综合技术
此文档为研一数据挖掘课程中的实验笔记
1.把doc文件分词(取名词+去停用词)
代码:E:\data_mining\fenci_data\fenci.py
输入:E:/data_mining/classified_data/aoyun
输出:E:/data_mining/fenci_data/aoyun/
2.把分词好的数据进行分流,分为训练集与测试集
代码:E:\data_mining\train_fenci_data\copyFromFenciData.py
输入:E:/data_mining//fenci_data
输出:E:/data_mining/train_fenci_data + E:/data_mining/test_fenci_data
3.将训练集与测试集所有文件重新改名1.txt
往后
代码:E:\data_mining\2.提取搜狗源数据分成小doc文件\changeFileName.py
输入:E:/data_mining/train_fenci_data\aoyun
输出:E:/data_mining/train_fenci_data\aoyun
test集同样做
4.corpus2Bunch:这一步将训练+测试数据集所有信息保存到train_set/test_set.dat中,这样以后提取信息,这个就是原始的数据集信息,从这个里面提取
bunch(targetname=[“aoyun”,“fangchan”…10个], label=[“aoyun”,“aoyun”…50万], filenames=[“E:\1.txt”,“E:\2.txt”…50万], contents=[“火炬手\n妈妈\n”, “明天\n奥\n”…50万])
代码:E:\data_mining\tf-idf_data\corpus2Bunch.py
输入:E:/data_mining/train_fenci_data # 分词后分类语料库路径
输出:E:/data_mining/tf_idf_data/train_word_bag/train_set.dat #Bunch存储路径
对test同样输出test_set.dat
5.tf-idf: 将训练集与测试集分别tf_idf,生成词向量空间
tf_idf思想强推这篇文章
这里可以调参 max_df=0.5
代码:E:\data_mining\tf-idf_data\tf_idf_train.p