Evaluating a Learning algorithm
假设在用linear regression 预测房价,然后你发现预测结果与实际结果偏差甚远。what should you try next?
然后 这里 引入两个概念,训练集和测试集。一般来说,训练集占70%,测试集占30%。
一般来说,都是先通过训练集求得θ然后再丢到测试集中测试测试误差。
图中,test error 公式跟linear regression的一样,就下标变了。
、
为了进一步精确我们的hypothesis我们引入交叉验证Cross validation
其中,训练集占60%,交叉验证集占20%,测试集占20%
以上所交代的是关于机器学习模式的选择,考虑该使用哪种多项式,然而regularization正则化中的λ 和 样本数量m也是影响算法性能的重要元素。以下引入 偏差(bias)和方差(variance)
前面我们所学习过的overfit和underfit中,underfit(欠拟合)就是典型的高bias,overfit则是典型的高variance