data_mining实验总结-100万篇幅文本分类

这篇博客记录了一次数据挖掘实验,涉及文本分类,使用libsvm和chi2方法。实验包括数据预处理、特征选择、模型训练和测试,最终在调整参数后得到满意的结果。
摘要由CSDN通过智能技术生成

title: data_mining实验总结-100万篇幅文本分类
date: 2017-12-16 13:45:57
updated: 2020-03-26 12:17:53
categories: 综合技术


此文档为研一数据挖掘课程中的实验笔记

1.把doc文件分词(取名词+去停用词)

代码:E:\data_mining\fenci_data\fenci.py
输入:E:/data_mining/classified_data/aoyun
输出:E:/data_mining/fenci_data/aoyun/

2.把分词好的数据进行分流,分为训练集与测试集

代码:E:\data_mining\train_fenci_data\copyFromFenciData.py
输入:E:/data_mining//fenci_data
输出:E:/data_mining/train_fenci_data + E:/data_mining/test_fenci_data

3.将训练集与测试集所有文件重新改名1.txt往后

代码:E:\data_mining\2.提取搜狗源数据分成小doc文件\changeFileName.py
输入:E:/data_mining/train_fenci_data\aoyun
输出:E:/data_mining/train_fenci_data\aoyun
test集同样做

4.corpus2Bunch:这一步将训练+测试数据集所有信息保存到train_set/test_set.dat中,这样以后提取信息,这个就是原始的数据集信息,从这个里面提取

bunch(targetname=[“aoyun”,“fangchan”…10个], label=[“aoyun”,“aoyun”…50万], filenames=[“E:\1.txt”,“E:\2.txt”…50万], contents=[“火炬手\n妈妈\n”, “明天\n奥\n”…50万])

代码:E:\data_mining\tf-idf_data\corpus2Bunch.py
输入:E:/data_mining/train_fenci_data # 分词后分类语料库路径
输出:E:/data_mining/tf_idf_data/train_word_bag/train_set.dat #Bunch存储路径
对test同样输出test_set.dat

5.tf-idf: 将训练集与测试集分别tf_idf,生成词向量空间

tf_idf思想强推这篇文章

这里可以调参 max_df=0.5

代码:E:\data_mining\tf-idf_data\tf_idf_train.p
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值