coursera ML笔记 ----week2 多变量的线性回归

最新推荐文章于 2019-02-09 09:19:45 发布

tjl_moby

最新推荐文章于 2019-02-09 09:19:45 发布

阅读量284

点赞数

分类专栏： coursera ml笔记 coursera笔记

本文链接：https://blog.csdn.net/tjl_moby/article/details/61237963

版权

coursera笔记同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

coursera ml笔记

13 篇文章 0 订阅

订阅专栏

欢迎点击作者原文地址

2017/3/10 week2
多变量的线性回归

h θ (x) = Θ T X = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n

$h_\theta(x)=\Theta^TX=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$
cost function

J (Θ) = 1 2 m \sum i = 1 m (y^- y i) 2 = 1 2 m \sum i = 1 m (h θ (x i) - y i) 2

$J(\Theta) = \frac{1}{2m}\sum_{i=1}^m(\hat{y}-y_i)^2= \frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{i})-y^{i})^2$

Gradient descent: 同步变化！

θ j : = θ j - α \partial J ( Θ ) \partial θ j = θ j - 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

$\theta_j:= \theta_j-\alpha \frac{\partial J(\Theta)}{\partial\theta_j} = \theta_j-\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
其中

Θ=(θ0,θ1,θ2,...,θn),x(i)0=1 $\Theta = (\theta_0,\theta_1,\theta_2,...,\theta_n),x_0^{(i)}=1$

θ = θ - α δ

$\theta = \theta -\alpha \delta$
其中

δ=1m∑mi=1(hθ(x)−y(i))x(i) $\delta = \frac{1}{m}\sum_{i=1}^m(h_\theta(x)-y^{(i)})x^{(i)}$ 其中

x(i) $x^{(i)}$ 也是一个向量

Feature scaling : make sure features are on a similar sacle

x i - v a l u e r a n g e

$\frac{x_i-value}{range}$
其实就是normalization！将特征值normalize到统一的范围，消除特征的值太大或太小带来的影响，可以把范围统一在[0，1] or [-1，1]。NG在课程里面提到的他一般的选取range是超过[-3，3]会缩小，小于[-1/3,1/3]的会舍弃。
Mean Normalization

x i - μ i S i

$\frac{x_i - \mu_i}{S_i}$ 其中

μi $\mu_i$ 是每个特征的均值，

Si $S_i$ 在此处是range=max-min，以后可以换成标准差 standard deviation.该式不适用于

x0 $x_0$

Normal Equation
solve $\theta$ 不通过偏导=0 来求解代价函数的最小值，而是直接求解 $\theta$ 。不需要选择 $\alpha$ ，也不需要做迭代

θ = (X T X) - 1 X T y

$\theta = (X^\mathrm{T} X)^{-1}X^\mathrm{T}y$
有m个observation，n个features，其中

XT $X^\mathrm{T}$ 是m*(n+1)的矩阵，就是我们直接看到的那个矩阵！！（注意，看到的并不是X）

x(i)=(x(i)1,(x(i)1,x(i)2,...,x(i)n+1)T $x^{(i)} = (x_1^{(i)},(x_1^{(i)},x_2^{(i)},...,x_{n+1}^{(i)})^\mathrm{T}$ 其中

x(i)k $x_k^{(i)}$ 表示第i个样本的第k个特征

不适用于特征特别多（n特别大）的情况 >10000

pinv 和inv在matlab中是求矩阵的逆，但是pinv适用于 $X^\mathrm{T}X$ 不可求逆的情况(singular/degenerate)。
1. redundant feature(linear dependent) 特征之间有线性关系 —>删特征
2. too many features (m<=n) 特征比样本多 —-> 删特征或者 regularization