机器学习模型选择
调参与验证集
- 算法的参数与模型的参数:
- L1:ax^ 3+bx^2+cx+d
- L2:ax^ 2+bx+c
- 3次函数还是2次函数,选择
3
次就是算法的参数
。 - 在三次函数中确定
a b c d
,就是模型的参数
。
- 验证集:
- 验证集是从训练集中抽出一部分数据,用于确定参数;训练集中的另一部分,用于训练。
- 算法参数选定后,要用 “训练集+验证集” 重新训练得到最终模型。
性能度量
- T:表示预测正确,F:表示预测错误。
- P:表示正例,N:表示反例。
- 查准率P:
(预测和实际都为正例的数量)/(预测为正例的数量)
- 查全率R:
(预测和实际都为正例的数量)/(实际为正例的数量)
- 同时衡量查准率和查全率,使用F1度量。
- 若对查准率 / 查全率有不同的偏好,则需使用参数β。
- β>1时查全率有更大影响;β<1时查准率有更大影响。
比较验证
- 机器学习无法找到确定正确,我们只能找到概率近似正确(很大的可能性得到很可能很好的模型)。
- 常用方法:统计假设检验
以上就是本文的全部内容,感谢各位的阅读与支持!