机器学习2.1

多变量的线性回归——Linear Regresssion with Multiple Variables


多变量线性回归——Multivariant Linear Regression

多特征——Multiple Feature


  • Notation

    n n = number of features.

    x(i) = input of ith i t h training example.

    x(i)j x j ( i ) = value of feature j in ith i t h training example.

  • Hypothesis

    Previously:hθ(x)=θ0+θ1x P r e v i o u s l y : h θ ( x ) = θ 0 + θ 1 x

    Now:hθ(x)=θ0+θ1x1+θ2x2+...+θnxn N o w : h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n

    为了符号的收敛,定义 x0=1 x 0 = 1 (x(i)0=1) ( x 0 ( i ) = 1 )

x=x0x1x2...xnRn+1,   θ=θ0θ1θ2...θn x = [ x 0 x 1 x 2 . . . x n ] ∈ R n + 1 ,       θ = [ θ 0 θ 1 θ 2 . . . θ n ]

hθ(x)=[θ0θ1θ2...θn]x0x1x2...xn h θ ( x ) = [ θ 0 θ 1 θ 2 . . . θ n ] [ x 0 x 1 x 2 . . . x n ]

=θTx = θ T x

so the hypothsis can be writen:

hθ(x)=θ0x0+θ1x1+...+θnxn h θ ( x ) = θ 0 x 0 + θ 1 x 1 + . . . + θ n x n

=θTx = θ T x

Multivariate Linear Regression

多元变量的梯度下降——Gradient Descent for Multiple Variables


寻找参数使得cost Function收敛:

repeat until convergence:{

θ0:=θ0α1mmi=1(hθ(x(i))y(i))x(i)0 θ 0 := θ 0 − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x 0 ( i )
θ1:=θ0α1mmi=1(hθ(x(i))y(i))x(i)1 θ 1 := θ 0 − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x 1 ( i )
θ2:=θ0α1mmi=1(hθ(x(i))y(i))x(i)2 θ 2 := θ 0 − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x 2 ( i )


}

简单来说:

repeat until convergence:{

θj:=θ0α1mmi=1(hθ(x(i))y(i))x(i)j  forj:=0...n θ j := θ 0 − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x j ( i )     f o r j := 0... n
}

梯度下降实用技巧(特征缩放)——Gradient Descent in Practice (Feature Scaling)


一般情况下,特征值相差不大的情况下,梯度下降会找到最近的路径得到最优值

特征缩放或者均值归一化(Mean Normalization):

xi:=xiμisi x i := x i − μ i s i

其中 μi μ i 是第i个特征的平均值, si s i 是值域(最大值-最小值)

例如:
如果 xi x i 表示房价,房价为100-2000,平均数为1000,则将房价输入重新赋值为:
xi:=price10001900 x i := p r i c e − 1000 1900

特征下降实用技巧(学习率)——Gradient Descent in Practice(Learning rate)


目的:
Gradient Descent:

θj:=θjαθjJ(θ) θ j := θ j − α ∂ ∂ θ j J ( θ )

  • “Debugging”: How to mark sure gradient descent is working correctly.

  • How to choose learning rate α α

一般情况下,如果一次迭代的代价函数 J(θ) J ( θ ) 小于 103 10 − 3 则为收敛

α α 的情况:
这里写图片描述
总结:
- 如果 α α 太小:很慢的收敛
- 如果 α α 太大:每个迭代并不减少,并且不收敛

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值