coursera-斯坦福-机器学习-吴恩达-第6周笔记-算法改进and机器学习系统设计
1算法改进
1.1评价算法
1.1.1模型诊断
对于正则化线性回归,其代价函数为:
minθ 12m ∑mi=1(hθ(x(i))−y(i))2+λ ∑nj=1θ2j
当面对测试集,你的算法效果不佳时,你一般会怎么做?
- 获得更多的训练样本?
- 尝试更少的特征?
- 尝试获取附加的特征?
- 尝试增加多项式的特征?
- 尝试增加λ?
- 尝试减小λ?
具体的情况要具体分析,方法不能乱用
机器学习(算法)诊断(Diagnostic)是一种测试方法,使你能对一种学习算法进行深入的认识,知道什么能运行,什么不能运行,并且能指导你如何最大限度的提高学习算法的性能。
诊断测试虽然需要一些时间来实现,但是这样做可以更有效的利用你的时间。
通常的解决办法是:
将数据集分成训练集和测试集,
将训练集训练出的参数用测试集数据测试性能。
通常情况下,训练集包含70%的数据,测试集是剩下的30%。
那么使用这两套新步骤是:
1. 学习Θ并使用训练集最小化Jtrain(Θ)
2. 计算测试集错误Jtest(Θ)
The test set error计算为:
- linear regression
Jtest(Θ)=12mtest