回归分析:输出是一个数值
(The output of the function is a scalar)
第一步:建立函数模型
第二步:判断函数好坏
y hat:表示training data中正确的值(已知),实际观察到function的output
函数的函数——泛函
损失函数Loss Function实际上是衡量一组参数(w,b)的好坏
平方损失函数:最小二乘法(平方是为了取正值)本质上是找到一条线 使得所有的点到它的距离和最小
本质上,应该画一个三维图像,w,b为自变量,损失函数为应变量,在此用颜色代表
第三步:找最好的函数
arg指返回变量的值,这里返回w,b的值
梯度下降
(一个参数):求微分
步长因子:学习率 + 斜率**(越陡 斜率绝对值越大 步长就越大*)*
local optimal:局部最优
not global optimal:非全局最优
(两个参数):求偏微分
倒三角就是梯度算子(在空间各方向上的全微分),也就是Hamilton哈密顿算子
图示公式表示矢量L的梯度
局部最优:即随机梯度下降
在线性回归中,损失函数L是凸面的
凸函数的局部最优解,就是全局最优解(线性回归无局部极值)
求偏微分具体过程
最终是得到的y与直线上的y的值的差距(相当于同一个x,两个y点的差值)
generalization:一般化
在一堆function model里找出最匹配的model
yield:产生
一个更复杂的model会在训练数据集上产生更小误差
overfitting:过拟合
(一个更复杂的model并不总导致在测试数据集上更好的表现)
当收集更多数据时,会出现一些在之前的function model中没被考虑到的隐藏因素
回到第一步:重建函数模型
它同样属于线性模型
蓝色框框里的是feature
以下将宝可梦的重量、高度、健康值全部考虑在内
得到的training error非常可观,但是testing error 过拟合
回到第二步:Regularization正则化
正则化解决过拟合问题:也就是在L函数中加入一个正则化项
我们需要更平滑的function:也就是输出对输入不那么sensitive
在做regularization时,不需要考虑b这一项(因为我们要做的是找一个平滑的function,调整b与一个函数的平滑程度无关,只是将函数上下偏移)
λ
\lambda
λ值越大,考虑smooth的正则化那一项就越大,function就越平滑,但训练数据的误差就越大(
λ
\lambda
λ值越大,越倾向于考虑w本来的值,而减少考虑error)