数据拆分
- 训练数据集,简称数据集
- 测试数据集,简称测试集
在有监督学习问题中,一般会给定两部分数据集,即训练集和测试集。训练集已知结果标签的数据集,主要用来训练模型;测试集是结果标签未知的数据集,一般就是我们需要预测结果的数据集。在进行模型选择时,我们一般将原始的训练集按比例(如8:2)分为两部分,一部分作为训练集,另一部分作为验证集。我们利用训练集数据训练模型,并在验证集上进行验证,最后把在验证集上表现较好的模型当作我们最终的模型,然后使用该模型在原始的全部训练集上再重新训练后对测试集进行预测输出。
评价分类结果
准确率
准确率就是用来衡量模型对数据集中样本预测正确的比例,即等于所有预测正确的样板数目与所有参加预测的样本总数目的比:
a c c u r a c y = 预 测 正 确 的 样 本 数 目 参 加 预 测 的 样 本 总 数 目 accuracy=\frac{预测正确的样本数目}{参加预测的样本总数目} accuracy=参加预测的样