2022吴恩达机器学习(Deep learning)课程对应笔记22
过拟合与正则化
更新时间:2023/03/21
回归例子
先认识一下什么事过拟合和欠拟合,如下图:
- 术语积累:欠拟合=高偏差
- 过拟合=高方差
分类例子
上面是回归模型的例子,下面看一下分类模型的例子
解决过拟合
下面就介绍一下怎么解决过拟合的方法
- 收集更多的训练集数据,也就是扩大训练集。
- 有选择性的使用特征,也就是说不用把每个特征都考虑上,只考虑关键特征。(但是存在把有用的特征丢弃的风险)
- 正则化技术:减小参数的大小。比如减小参数
w
⃗
\vec{w}
w和
b
b
b的大小,使得最终的预测结果不被某一两个对应参数(
w
i
,
w
j
w_i,w_j
wi,wj)最大的特征(
x
i
,
x
j
x_i,x_j
xi,xj)取值影响。
下面是小结一下:
正则化代价函数
下面看下应该如何正则化代价函数:
这是一个直观的例子,当 w 3 , w 4 w_3,w_4 w3,w4,很大的时候整个模型的loss也会很大
- 正则化的思想其实就是得到一个参数值更小的模型( s a m l l v a l u e s w 1 , w 2 , . . . , w n , b samll\ values\ w_1,w_2,...,w_n,b samll values w1,w2,...,wn,b),就越难过拟合。
- 通常来说并不知道那个特征的影响更大,也就是不知道惩罚哪个特征,所以一般会惩罚所有特征对应的参数。所构建的具有正则化项的参数如下图中的公式所示。(通常不会惩罚偏置项)
在正则化的过程中正则化系数 λ \lambda λ的取值对正则化项非常重要,
正则化线性回归
下面是加入了正则化项的线性回归的梯度下降过程,b的更新过程咩有变化,只是参数 w j w_j wj的更新过程发生了变化
下面是具体的带正则化项的线性回归模型梯度下降过程。在更新参数 w j w_j wj时带正则化项的作用,实际上就是更新 w j w_j wj时,把 w j w_j wj收缩为原来的 1 − α λ m 1-\alpha\frac{\lambda}{m} 1−αmλ倍,其中 α \alpha α表示学习率, λ \lambda λ表示正则化系数, m m m表示数据集大小。
下面是具体的损失函数计算过程
正则化逻辑回归
逻辑回归的正则化参数如下