例子:手写数字分类
ML
1. 函数模型是什么
2. 函数参数是什么
3. 如何训练参数
ML Pipeline
1. 定义问题
- 输入是什么
- 想要做什么?是监督学习、无监督学习or...
- 预期结果
2. 准备数据
- garbage in garbage out
3. 定义模型和损失函数
4. 训练模型,最小化损失函数
5. DONE!
Bias / Variance
Bias: A tendency towards certain predictions 度量了学习算法的期望预测与真实结果的偏离程度
Variance: Our ability to match the spread of our data 度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
做好方差和偏差之间的权衡。当偏差十分小时,小心方差过大(模型完美的适应数据中的噪声,过拟合)
如图1_1,输入是近似正弦函数的点序列。左上和右上的偏差和方差都很大;左下完美地拟合了正弦函数,虽然存在一定偏差,但模型时正确的;右下偏差更小,但过拟合了。
ps: dropout的重要性也可以在此体现,如果使用随机dropout,可以减轻噪声的影响,使模型更具备健壮性。
ps: 过拟合也可以理解为 模型的复杂度大于数据的复杂度