课时7-课堂笔记
前六课学习了机器学习基本概念,尤其是第六课basic concepts有感觉比较有帮助。
Error 来源: Bias vs. Variance
Error = Bias + Variance
Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。
Bias: if we average all the f*, is it close to
f
^
\hat{\text{f}}
f^
E[f*] =
f
‾
\overline{\text{f}}
f
如果是bias大,意味着模型不能fit data,
f
^
\hat{f}
f^可能根本就不在target里面,这时候加更多数据也没用,应该增加特征值,或者增加模型复杂度,一次不行,两次或三次方。
如果是variance大,则应该collect more data,
如果没有实际数据,有一招:generate 假的training data, 手写数字倾斜15度,左右颠倒,男生女生声音变换,公车声音噪音加上,没有中文,就把英文应翻译成中文。
或做regularization:平滑。
模型选择:
- bias和variance要trade-off
- 自己手上的testing set和真实的testing set的bias要一致,就不要在自己的testing set上fine tune.
- 应该做的是把training set分成两组:training set和validation set. training set是真正的training set,另外一组validation set是用来选model。
- 如果觉得训练数据少了,就选完model用全部的原先的training set在model3上再训一次