什么是训练数据和测试数据?
训练数据经过机器学习算法(ML Algorithm)可以得到分类器,再将测试数据放入分类器,则可得到评估结果。
训练集和测试集应来源于同一个数据集,但为两个不相交的集合。比如:将一个数据集的1/3作为测试集,2/3作为训练集。
接下来通过一个简单的实验进一步理解训练与测试数据:
1、打开Explorer界面,选择数据集segment-challenge.arff。
2、打开classify面板,选择J48分类器。
3、观察Test options面板,共有4种方式来评价模型效果,分别是:
Use traning set 使用训练集,Supplied test set设置测试集,Cross-validation交叉验证和Percentage split按比划分。
以下将介绍四种方法的区别。
●使用训练集
选择后,点击start。