【学习笔记】吴恩达机器学习 | 第六章 | 正则化

在这里插入图片描述

简要声明


  1. 课程学习相关网址
    1. Bilibili
    2. 网易云课堂
    3. 学习讲义
  2. 由于课程学习内容为英文,文本会采用英文进行内容记录,采用中文进行简要解释。
  3. 本学习笔记单纯是为了能对学到的内容有更深入的理解,如果有错误的地方,恳请包容和指正。
  4. 非常感谢Andrew Ng吴恩达教授的无私奉献!!!

专有名词


Underfitting欠拟合high bias高偏差
Overfitting过拟合high variance高方差
generalize泛化Regularization正则化

The problem of overfitting


Overfitting

在这里插入图片描述

在这里插入图片描述

  1. underfitting 欠拟合 → high bias 高偏差
    overfitting 过拟合 → high variance 高方差
  2. Overfitting: If we have too many features, the learned hypothesis may fit the training set very well, but fail to generalize to new examples →当特征过多的时候,训练出的假设函数能很好地拟合训练集(代价函数几乎等于零),但是导致它无法泛化到新的样本中(无法预测新样本)
  3. Generalize 泛化 →一个假设模型应用到新样本的能力

Addressing overfitting

  1. Reduce number of features →减少特征数量
    1. Manually select which features to keep →人工选择应该保留的特征
    2. Model selection algorithm →模型选择算法(自动选择保留特征变量)
    3. 舍弃一部分特征变量也舍弃了一些问题相关信息
  2. Regularization 正则化
    1. Keep all the features, but reduce magnitude/values of parameters θ_j →保留所有特征变量,但是减少量级或参数θ_j的大小
    2. Works well when we have a lot of features, each of which contributes a bit to predicting y →当有很多特征变量时,其中每一个变量都能对预测的y值产生一点影响

Regularization cost function


Regularization

  1. Small values for parameters θ →如果我们参数值较小时(加入惩罚项)
    1. “Simpler” hypothesis →一个更简单的假设函数
    2. Less prone to overfitting →更不容易出现过拟合
  2. 在代价函数加一个额外的正则化项 →缩小每一个参数的值
    1. 没有给θ_0增加惩罚项,无论是否包括θ_0实际上对结果影响都不大
    2. λ称为正则化参数 →控制两个不同目标之间的取舍 →控制两项的平衡关系
      1. 第一个目标(与第一项有关):更好地拟合训练集数据
      2. 第二个目标(与正则化项有关):保持参数尽量的小
    3. 如果λ被设的太大的话,参数的惩罚程度过大,参数都会接近于0 →h_θ(x) = θ_0 →欠拟合
    4. 需要选择一个合适的正则化参数λ

J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 + λ ∑ j = 1 n θ j 2 ] J(\theta)=\frac{1}{2m} [\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 + \lambda\sum_{j=1}^n\theta_j^2] J(θ)=2m1[i=1m(hθ(x(i))y(i))2+λj=1nθj2]

Regularized linear regression


Regularized linear regression

J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 + λ ∑ j = 1 n θ j 2 ] J(\theta)=\frac{1}{2m} [\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 + \lambda\sum_{j=1}^n\theta_j^2] J(θ)=2m1[i=1m(hθ(x(i))y(i))2+λj=1nθj2]

min ⁡ θ   J ( θ ) \min\limits_{\theta} \ J(\theta) θmin J(θ)

Gradient descent

Repeat {

θ 0 : = θ 0 − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x 0 ( i ) \theta_0:=\theta_0-\alpha\frac{1}{m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})\cdot x_0^{(i)} θ0:=θ0αm1i=1m(hθ(x(i))y(i))x0(i)

θ j : = θ j − α [ 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x j ( i ) + λ m θ j ] ( j = 1 , 2 , 3 , ⋯   , n ) \theta_j:=\theta_j-\alpha[\frac{1}{m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})\cdot x_j^{(i)} + \frac{\lambda}{m}\theta_j] \quad (j=1,2,3,\cdots,n) θj:=θjα[m1i=1m(hθ(x(i))y(i))xj(i)+mλθj](j=1,2,3,,n)

}

θ j : = θ j ( 1 − λ m ) − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x j ( i ) ( j = 1 , 2 , 3 , ⋯   , n ) \theta_j:=\theta_j(1-\frac{\lambda}{m})-\alpha\frac{1}{m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})\cdot x_j^{(i)} \quad (j=1,2,3,\cdots,n) θj:=θj(1mλ)αm1i=1m(hθ(x(i))y(i))xj(i)(j=1,2,3,,n)

  1. 正则化项没有θ_0,需要进行分类讨论
  2. 1-α*(λ/m)<1 →α*(λ/m)是个正数,通常学习率α很小但m却很大 →α*(λ/m)很小
  3. 每次迭代时都将θ_j乘以一个比1略小的数来缩小参数

Normal equation

θ = ( X T X + λ [ 0 1 1 ⋱ 1 ] ) − 1 X T y \theta=(X^TX+\lambda \begin{bmatrix} 0 \\ & 1 \\ & & 1 \\ & & & \ddots \\ & & & &1 \end{bmatrix} )^{-1}X^Ty θ=(XTX+λ 0111 )1XTy

  1. 有趣的矩阵:除了最左上角的元素是0以外,其余对角线元素都是1,其余元素都是0
  2. Non-invertibility (optional/advanced) →不可逆问题
    1. 如果 m ≤ n →样本数量小于等于特征数量 →X转置乘以X的矩阵不可逆(奇异矩阵/退化矩阵)
    2. 只要正则化参数λ大于0,那么X的转置乘以X加上λ乘以有趣的矩阵一定不是奇异矩阵 →一定是可逆的

Regularized logistic regression


Regularized logistic regression

h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=g(θTx)=1+eθTx1

J ( θ ) = − 1 m ∑ i = 1 m [ y   l o g ( h θ ( x ) ) + ( 1 − y )   l o g ( 1 − h θ ( x ) ) ] + λ 2 m ∑ j = 1 n θ j 2 J(\theta)=-\frac{1}{m}\sum_{i=1}^{m} [y\ log(h_{\theta}(x))+(1-y)\ log(1-h_{\theta}(x))] + \frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2 J(θ)=m1i=1m[y log(hθ(x))+(1y) log(1hθ(x))]+2mλj=1nθj2

Gradient descent

Repeat {

θ 0 : = θ 0 − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x 0 ( i ) \theta_0:=\theta_0-\alpha\frac{1}{m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})\cdot x_0^{(i)} θ0:=θ0αm1i=1m(hθ(x(i))y(i))x0(i)

θ j : = θ j − α [ 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x j ( i ) + λ m θ j ] ( j = 1 , 2 , 3 , ⋯   , n ) \theta_j:=\theta_j-\alpha[\frac{1}{m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})\cdot x_j^{(i)} + \frac{\lambda}{m}\theta_j] \quad (j=1,2,3,\cdots,n) θj:=θjα[m1i=1m(hθ(x(i))y(i))xj(i)+mλθj](j=1,2,3,,n)

}

吴恩达教授语录


  • “When I walk around Silicon Valley, I live here in Silicon Valley, there are a lot of engineers that are frankly making a ton of money for the companies using machine learning algorithms.”
  • “By now, frankly, you probably know quite a lot more machine learning than many certainly now, but you probably know quit a lot more machine learning right now than frankly, many of the Silicon Valley engineers, while they’re having very successful careers, making tons of money for the companies or building great products using machine learning algorithms.”
  • “So, congratulations, you’ve actually come a long ways and you can actually know enough to apply this stuff and get to work or many problems.”
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在深度学习中,正则化是一种应对过拟合问题的技术。过拟合指的是模型在训练集上表现很好,但是在测试集上表现较差的情况。为了解决这个问题,我们可以使用正则化技术。 吴恩达在深度学习中提出了两种常见的正则化技术:L2正则化和dropout正则化。L2正则化通过在损失函数中加入正则化项来约束模型的参数,使得模型的复杂度减小。这样可以减少模型对训练数据的过拟合程度,提高模型的泛化能力。具体来说,L2正则化会将模型的权重与其平方的和相乘,并添加到损失函数中。 而dropout正则化则是在训练的过程中随机地将一些神经元的输出置为0,这样可以减少神经元之间的依赖关系,降低模型过拟合的风险。在测试阶段,所有神经元的输出都会被保留,并乘以一个保留概率。 通过使用这两种正则化技术,我们可以有效地减少模型的过拟合问题,提高模型在测试集上的准确率。吴恩达在他的课程中提供了相应的代码示例和数据集,可以帮助学习者理解和实践正则化技术。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [吴恩达深度神经网络调优笔记正则化](https://blog.csdn.net/m0_51447279/article/details/127112009)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [吴恩达深度学习第二门课第一周作业](https://download.csdn.net/download/weixin_42149550/11666926)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Benjamin Chen.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值