1. 定义
训练集是用于发现和预测潜在关系的一组数据。
测试集是用于评估预测关系强度和效用的一组数据。
2. 运用
测试集和训练集用于智能系统,机器学习,遗传编程和统计。
3. 二者关系
在训练分类器期间,只有训练集可用,不得使用测试集。测试集仅在测试分类器期间可用。
测试集是独立于训练数据,但是遵循与训练数据相同的概率分布的一组数据。 如果适合训练集的模型也适合测试集合,则发生最小过度拟合。
4. 使用方法
通常把已有数据集分成3部分。
训练集 > 60%
交叉验证集 > 20%
测试集 > 20%
用训练集进行机器学习,然后使用交叉验证集(监督学习)进行调整,以提高参数,最后使用测试集,测试模型的准确性。以上样本数量分配并不是强制要求,只是经验提供。如果没有验证集,我们可以把数据分为70%训练集和30%测试集。
5. 举例
现实生活中,计算机没办法像人类一样认识事物,所以人类一直致力于这方面的研究。前辈们已经开发了许多方法,以实现计算机识别能力,比如SVM等。但是目前最火且具有最高识别度的还是深度学习。有许许多多的人投身于中,可以说我们赶上了时代的列车。
如何识别?
假如我们需要识别一辆小汽车。那么我们需要有大量的小汽车图片(训练数据),当我们有足够多的数据时,我们就可以进行机器学习了。我们告诉计算机,这些数据都是小汽车,计算机通过算法(这里使用深度学习算法)知道什么是小汽车,具备哪些特征。这时,我们就可以放入已有的其他图片(测试数据),计算机会把这些图片与经验库图片进行比对,然后告诉我们哪些是小汽车,哪些不是小汽车。