- 获得更多的训练实例——通常是有效的,但代价较大,下面的方法也可能有效,可
考虑先采用下面的几种方法。————解决高方差 - 尝试减少特征的数量 ————解决高方差
- 尝试获得更多的特征 ————解决高偏差
- 尝试增加多项式特征 ————解决高偏差
- 尝试减少正则化程度λ ———解决高偏差
- 尝试增加正则化程度λ ———解决高方差
绍怎样评估机器学习算法的性能???
“机器学习诊断法”
判断是否过拟合:们将数据分成训练集和测试集,通常用 70%的数据作为训练集,用剩下 30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型的数据,通常我们要对数据进行“洗牌”,然后再分成训练集和测试集
- 对于线性回归模型,我们利用测试集数据计算代价函数 J
- 对于逻辑回归模型,我们除了可以利用测试数据集来计算代价函数外:
误分类的比率,对于每一个测试集实例,计算:
然后对计算结果求平均
模型选择和交叉验证集:
60%数据作为训练集,20%数据作为交叉验证集,20%作为测试集。
模型选择方法:
1 使用训练集训练出10个模型
2 用10个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)
3 选取代价函数最小的模型
4 用3选出的模型对测试集计算得出推广误差(代价函数的值)
如果算法表现不理想,主要是两种情况:1)偏差比较大,high bias——欠拟合;2)方差比较大,high variance—