机器学习2.1

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Dove_forehead/article/details/79613712

多变量的线性回归——Linear Regresssion with Multiple Variables


多变量线性回归——Multivariant Linear Regression

多特征——Multiple Feature


  • Notation

    n = number of features.

    x(i) = input of ith training example.

    xj(i) = value of feature j in ith training example.

  • Hypothesis

    Previously:hθ(x)=θ0+θ1x

    Now:hθ(x)=θ0+θ1x1+θ2x2+...+θnxn

    为了符号的收敛,定义x0=1(x0(i)=1)

x=[x0x1x2...xn]Rn+1,   θ=[θ0θ1θ2...θn]

hθ(x)=[θ0θ1θ2...θn][x0x1x2...xn]

=θTx

so the hypothsis can be writen:

hθ(x)=θ0x0+θ1x1+...+θnxn

=θTx

Multivariate Linear Regression

多元变量的梯度下降——Gradient Descent for Multiple Variables


寻找参数使得cost Function收敛:

repeat until convergence:{

θ0:=θ0α1mi=1m(hθ(x(i))y(i))x0(i)
θ1:=θ0α1mi=1m(hθ(x(i))y(i))x1(i)
θ2:=θ0α1mi=1m(hθ(x(i))y(i))x2(i)


}

简单来说:

repeat until convergence:{

θj:=θ0α1mi=1m(hθ(x(i))y(i))xj(i)  forj:=0...n
}

梯度下降实用技巧(特征缩放)——Gradient Descent in Practice (Feature Scaling)


一般情况下,特征值相差不大的情况下,梯度下降会找到最近的路径得到最优值

特征缩放或者均值归一化(Mean Normalization):

xi:=xiμisi

其中μi 是第i个特征的平均值,si是值域(最大值-最小值)

例如:
如果 xi 表示房价,房价为100-2000,平均数为1000,则将房价输入重新赋值为:
xi:=price10001900

特征下降实用技巧(学习率)——Gradient Descent in Practice(Learning rate)


目的:
Gradient Descent:

θj:=θjαθjJ(θ)

  • “Debugging”: How to mark sure gradient descent is working correctly.

  • How to choose learning rate α

一般情况下,如果一次迭代的代价函数J(θ)小于103则为收敛

α的情况:
这里写图片描述
总结:
- 如果 α太小:很慢的收敛
- 如果 α太大:每个迭代并不减少,并且不收敛

展开阅读全文

没有更多推荐了,返回首页