回归
例:预测宝可梦进化后CP值:
第一步: 找一个模型(function set),如线性模型:
y
=
b
+
w
×
x
c
p
y = b+w \times x_{cp}
y=b+w×xcp
w
i
w_i
wi称为权重,
b
b
b称为偏度;
用上标表示一个完整的对象,用下标表示对象的一个属性,
y
^
i
\hat y^i
y^i表示第i个对象的实际输出
第二步: 评价方程的好坏
定义Loss function
L
L
L: 输入一个函数,输出这个函数有多不好。
第三步: 找到最好的函数
梯度下降法:
- 1.随机选取第一个点 w 0 w_0 w0
- 2.计算梯度 d L d w ∣ w = w 0 \frac{dL}{dw}|_{w=w^0} dwdL∣w=w0
- 3.更新参数 w 1 w^1 w1
- 4.反复执行2、3两步
两个参数 w w w、 b b b时
线性回归中L为图函数,局部极小值就是全局最小值
方程的泛化能力如何?
计算测试集的误差
如何进一步减小误差?
可以使用更复杂的模型如引入 x 2 x^2 x2项
当使用的模型过于复杂时:
越复杂的模型可能发生过拟合,需要选择一个可接受的最简单的模型。
根据不同种类使用不同线性函数:
解决过拟合的方法: 添加正则化项
正则化项会希望得到参数值趋于0的函数,这样可以的到更平滑的函数。
为什么想要一个更平滑的函数?
因为参数越小,函数越平滑时,当数据中有噪声时函数受到的影响越小;
选择超参数
λ
\lambda
λ时,
λ
\lambda
λ越大,会使
w
w
w越小,函数越平滑,也使我们更多考虑
w
w
w导致训练集上误差更大,而在测试集上
λ
\lambda
λ越大时,误差先减小后增加,因此可以选取一个适当的
λ
\lambda
λ使误差在训练集和测试集上都很小。