交叉验证

最新推荐文章于 2023-02-07 15:41:20 发布

YoungBella

最新推荐文章于 2023-02-07 15:41:20 发布

阅读量2.6k

点赞数

分类专栏：机器学习文章标签：机器学习交叉验证

本文链接：https://blog.csdn.net/u012951944/article/details/60584435

版权

交叉验证是一种模型选择的方法，用于在逻辑回归和决策树等模型间选择。以3折交叉验证为例，数据被分为3份，每份轮流作为测试集，其余作为训练集，计算多个模型的平均准确率，选取平均准确率较低的模型。较高的交叉验证成本意味着需要训练更多模型，Spark MLlib提供了交叉验证的详细解释。

摘要由CSDN通过智能技术生成

首先要明确，交叉验证是一种模型选择的方法。那么什么是模型选择，也就是说我到底是用决策树呢还是用逻辑回归呢，还是用神经网络呢。每一种算法便是这里所说的一种模型。
假设我们要在逻辑回归和决策树两种模型之间进行选择。
下面以3折交叉验证为例，进行详细说明。
3折交叉验证将数据平均的分成3分，这里分别记做 S1, S2, S3.
对于逻辑回归模型而言，首先用S1, S2作为训练集进行训练，得到模型logist_model_1，并用S3作为测试集进行测试，得到准确率logis_precise_1。
用S1, S3作为训练集进行训练，得到模型logist_model_2，并用S2作为测试集进行测试，得到准确率logis_precise_2。
用S2, S3作为训练集进行训练，得到模型logist_model_3，并用S1作为测试集进行测试，得到准确率logis_precise_3。
logisModel_avg_precise = (logis_precise_1 + logis_precise_2 + logis_precise_3) 3 逻辑回归模型在此训练集上的平均准确率

对于决策树模型而言，方法同上，分别训练出三个模型，分别为：decisionTree_model_1, decisionTree_model_2, decisionTree_model_3.