2017/3/10 week2
多变量的线性回归
hθ(x)=ΘTX=θ0+θ1x1+θ2x2+...+θnxn
cost function
J(Θ)=12m∑i=1m(y^−yi)2=12m∑i=1m(hθ(xi)−yi)2
Gradient descent: 同步变化!
θj:=θj−α∂J(Θ)∂θj=θj−1m∑i=1m(hθ(x(i))−y(i))x(i)j
其中 Θ=(θ0,θ1,θ2,...,θn),x(i)0=1
θ=θ−αδ
其中 δ=1m∑mi=1(hθ(x)−y(i))x(i) 其中 x(i) 也是一个向量
Feature scaling : make sure features are on a similar sacle
xi−valuerange
其实就是normalization!将特征值normalize到统一的范围,消除特征的值太大或太小带来的影响,可以把范围统一在[0,1] or [-1,1]。NG在课程里面提到的他一般的选取range是超过[-3,3]会缩小,小于[-1/3,1/3]的会舍弃。
Mean Normalization
xi−μiSi
其中
μi
是每个特征的均值,
Si
在此处是range=max-min,以后可以换成标准差 standard deviation.该式不适用于
x0
Normal Equation
solve
θ
不通过偏导=0 来求解代价函数的最小值,而是直接求解
θ
。 不需要选择
α
,也不需要做迭代
θ=(XTX)−1XTy
有m个observation,n个features,其中 XT 是m*(n+1)的矩阵,就是我们直接看到的那个矩阵!!(注意,看到的并不是X) x(i)=(x(i)1,(x(i)1,x(i)2,...,x(i)n+1)T 其中 x(i)k 表示第i个样本的第k个特征
不适用于特征特别多(n特别大)的情况 >10000
pinv 和inv在matlab中是求矩阵的逆,但是pinv适用于
XTX
不可求逆的情况(singular/degenerate)。
1. redundant feature(linear dependent) 特征之间有线性关系 —>删特征
2. too many features (m<=n) 特征比样本多 —-> 删特征 或者 regularization