欠拟合和过拟合
产生原因:模型不合适导致其无法对数据实现有效的预测。
模型对数据的预测情况:
训练数据 | 预测数据 | |
---|---|---|
欠拟合 | 不准确 | 不准确 |
过拟合 | 准确 | 不准确 |
好模型 | 准确 | 准确 |
欠拟合可以通过观察训练数据及时发现,通过优化模型结果解决
过拟合产生原因
- 模型结构过于复杂(维度过高)
- 使用了过多属性,模型训练时包含了干扰信息
解决办法:
- 简化
模型结构
(使用低阶模型,比如线性模型) - 数据预处理,保留
主成分信息
(数据PCA处理) - 在模型训练时,增加
正则化项
(regularization)
增加正则化项
数据分离与混淆矩阵
建立模型的意义,不在于对训练数据做出准确预测,更在于对新数据的准确预测
模型训练与评估流程
数据载入 —> 数据可视化与预处理 —> 模型创建 —> 数据用于模型训练 —> 模型评估
分类任务中,计算测试数据集预测准确率(accuracy)以评估模型表现。训练数据集准确率
随着模型复杂而提高,测试数据集准确率
在模型过于简单或过于复杂的情况时下降。但无法真实反映模型针对各个分类的预测准确度
。准确率可以方便的用于衡量模型的整体预测效果,但无法反应细节信息,具体表现在:
- 没有体现数据预测的
实际分布情况
(0、1本身的分布比例) - 没有体现模型
错误预测的类型
混淆矩阵
混淆矩阵(Confusion Matrix)
,又称为误差矩阵,用于衡量分类算法的准确程度
通过混淆矩阵,计算更丰富的模型评估指标