data_mining实验总结-100万篇幅文本分类

最新推荐文章于 2023-11-02 11:27:43 发布

Pop_Rain

最新推荐文章于 2023-11-02 11:27:43 发布

阅读量588

点赞数

分类专栏：综合技术问题

本文链接：https://blog.csdn.net/Pop_Rain/article/details/105115807

版权

这篇博客记录了一次数据挖掘实验，涉及文本分类，使用libsvm和chi2方法。实验包括数据预处理、特征选择、模型训练和测试，最终在调整参数后得到满意的结果。

摘要由CSDN通过智能技术生成

title: data_mining实验总结-100万篇幅文本分类
date: 2017-12-16 13:45:57
updated: 2020-03-26 12:17:53
categories: 综合技术

此文档为研一数据挖掘课程中的实验笔记

1.把doc文件分词（取名词+去停用词）

代码：E:\data_mining\fenci_data\fenci.py
输入：E:/data_mining/classified_data/aoyun
输出：E:/data_mining/fenci_data/aoyun/

2.把分词好的数据进行分流，分为训练集与测试集

代码：E:\data_mining\train_fenci_data\copyFromFenciData.py
输入：E:/data_mining//fenci_data
输出：E:/data_mining/train_fenci_data + E:/data_mining/test_fenci_data

3.将训练集与测试集所有文件重新改名1.txt往后

代码：E:\data_mining\2.提取搜狗源数据分成小doc文件\changeFileName.py
输入：E:/data_mining/train_fenci_data\aoyun
输出：E:/data_mining/train_fenci_data\aoyun
test集同样做

4.corpus2Bunch：这一步将训练+测试数据集所有信息保存到train_set/test_set.dat中，这样以后提取信息，这个就是原始的数据集信息，从这个里面提取

bunch(targetname=[“aoyun”,“fangchan”…10个], label=[“aoyun”,“aoyun”…50万], filenames=[“E:\1.txt”,“E:\2.txt”…50万], contents=[“火炬手\n妈妈\n”, “明天\n奥\n”…50万])

代码：E:\data_mining\tf-idf_data\corpus2Bunch.py
输入：E:/data_mining/train_fenci_data # 分词后分类语料库路径
输出：E:/data_mining/tf_idf_data/train_word_bag/train_set.dat #Bunch存储路径
对test同样输出test_set.dat

5.tf-idf: 将训练集与测试集分别tf_idf，生成词向量空间

tf_idf思想强推这篇文章

这里可以调参 max_df=0.5

代码：E:\data_mining\tf-idf_data\tf_idf_train.p

最低0.47元/天解锁文章

Pop_Rain

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录