文章目录
机器学习算法评估与优化策略
1 机器学习诊断
1.1 数据集
-
训练集70%-测试集30%
通过训练集让我们的模型学习得出其参数后,对测试集运用该模型。 -
训练集60%-交叉验证集20%-测试集20% ✓ \checkmark ✓
假设我们要在10个不同次数的二项式模型之间进行选择,模型选择的方法为:
- 使用训练集训练出10个模型
- 用10个模型分别对交叉验证集计算得出交叉验证误差
- 选取代价函数值最小的模型
- 用步骤3中选出的模型对测试集计算得出推广误差
- 对于比较大的数据集 (如10000000) ,只需保证交叉验证集和测试集各有10000个样本,其余都作为训练集
1.2 误差
-
对于回归模型,我们可以计算 代价函数 J J J (未正则化);
-
对于分类模型,我们除了可以计算 代价函数 J J J (未正则化) 外,还可以计算测试集 误分类比率.
当分类出现了既不希望出现的错误分类 (如在识别猫的例子中,把porn标记为了猫),那么可以适当修改误差指标,加大对porn的误差惩罚权重:
e r r o r = 1 ∑ ω i ∑ ω i I { y ^ i ≠ y i } , ω i = { 1 x i i s n o t p o r n 10 ,