5-Regularization

1 - The Problem of Overfitting 过拟合问题

housing price prediction

  • Overfitting:太多features,Hypothesis函数能非常好的拟合训练集,使得J(θ)≈0。但是不能适应一般情况,对测试集预测效果较差
  • 解决方法:
    • 减少属性数目:人工选择应该保留的属性,使用模型选择算法(后续章节会讲到)
    • Regularization
      • 保留所有的features,但是减小参数 θ 的值
      • 即使在features很多的情况下效果也很好,每个feature对y的预测都有贡献。

2 - Cost Function 代价函数

J(θ)=12m[i=1m(hθ(x(i))y(i))+λj=1nθ2j]

  • 更小的 θ 值:hypothesis函数更简单、过拟合可能性更小。
  • 如果此时 λ 选取了一个非常大的值呢?
    • 算法运行正常(许多属性将被舍弃)
    • 无法消除过拟合问题
    • 算法出现欠学习现象
    • 梯度下降法无法收敛
  • 注意:

只要是用到 regularization 的地方,都要记住:只考虑对输入x有权值的参数 θ 的影响。不如,这里不能加上 θ0^2,而只能计算从 θ1~θn 的情况!!!!

3 - Regularized Linear Regression 线性回归的规范化

  • Gradient Descent

    }Repeat{θ0:=θ0α1mi=1m(hθ(x(i))y(i))x(i)0θj:=θj(1αλm)α1mi=1m(hθ(x(i))y(i))x(i)j

  • Normal equation

    X=(x(1))T(x(m))Ty=y(1)y(m)θ=(XTX+λ011)1XTy

  • Non-invertibility 矩阵不可逆问题在这里得到了解决

    • 另外,可以证明,当λ>0时,上面的 θ 表达式一定是可逆的
    • m<=n(样本数量比属性还少)

4 - Regularized Logistic Regression 逻辑回归的规范化

Hypothesis公式和Cost function:
hθ(x)=g(θTx)
J(θ)=[1mi=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]+λ2mj=1nθ2j
J(θ)=12m[i=1m(hθ(x(i))y(i))+λj=1nθ2j]

下面是具体的算法:

  • Gradient Descent

    }Repeat{θ0:=θ0α1mi=1m(hθ(x(i))y(i))x(i)0ifj=0θj:=θjα[1mi=1m(hθ(x(i))y(i))x(i)jλmθj]ifj=1,2,3,,n

    其实也就是Linear Regression中的公式:

    }Repeat{θ0:=θ0α1mi=1m(hθ(x(i))y(i))x(i)0θj:=θj(1αλm)α1mi=1m(hθ(x(i))y(i))x(i)j

  • Advanced optimization
    advanced optimization
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值