一、实验目的
1、巩固4种基本的分类算法的算法思想:朴素贝叶斯算法,决策树算法,人工神经网络,支持向量机算法;
2、能够使用现有的分类器算法代码进行分类操作;
3、学习如何调节算法的参数以提高分类性能;
二、实验硬件软件平台
硬件:计算机
软件:操作系统:WINDOWS
应用软件:C,Java或者Matlab、Weka
三、实验内容
利用现有的分类器算法对文本数据集进行分类
实验步骤:
1.了解文本数据集的情况并阅读算法代码说明文档;
2.利用文本数据集中的训练数据对算法进行参数学习;
3.利用学习的分类器对测试数据集进行测试;
4.统计测试结果;
软件下载与安装;实验资料下载
软件使用weka3.8,下载链接:https://sourceforge.net/projects/weka/,可以直接使用。
实验资源下载:https://pan.baidu.com/s/1PqxBDF4pjcV1F63PXYJIOw 密码:r54q
包含实验算法的原理讲解和arff格式的数据集。
实验过程操作及现象
1、数据集的获取及格式转换
1.1TXT文本转换为CSV
Excel的XLS文件可以让多个二维表格放到不同的工作表(Sheet)中,我们只能把每个工作表存成不同的CSV文件。打开一个XLS文件并切换到需要转换的工作表,另存为CSV类型,点“确定”、“是”忽略提示即可完成操作。
本次实验中提供的数据集data set是用逗号分隔的,可以使用Excel中的“导入数据”功能,最后另存为CSV。
1.2CSV转换为arff
将CSV转换为ARFF最迅捷的办法是使用WEKA本身。
在Explorer界面选择open file,然后打开CSV文件,选择save,保存格式选择arff,之后再点击open file打开arff文件即可。
WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。它包含关系声明和属性声明。
2、Weka的使用
如图是进入软件的界面,点击explorer,我们实验的功能都在那个里面。
点击open file,选择第一步中转换好的.arff格式的数据集导入,待界面上可以看到数据之后,点击右边的“Classify”,进行分类算法的测试。
点击choose按钮,选择需要测试的算法,在test_options中选择算法的参数,在下拉列表中选择分类的关键依据参数,点击start即可完成分类的测试。
3、各算法的测试
3.1:分类关键依据的选定