Coursea-吴恩达-machine learning学习笔记（四）【week 2之Linear Regression with Multiple Variables】

最新推荐文章于 2024-02-25 14:11:51 发布

痞靥

最新推荐文章于 2024-02-25 14:11:51 发布

阅读量188

点赞数

分类专栏：机器学习文章标签：多元线性回归

本文链接：https://blog.csdn.net/u012347642/article/details/80232938

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

多变量线性回归中的符号表示：
$m：$ 表示训练样本的数量
$n：$ 表示特征量的数量
$x^{(i)}：$ 表示第 $i$ 个训练样本的输入特征向量
$x^{(i)}_j：$ 表示第 $i$ 个训练样本的第 $j$ 个特征量

多变量线性回归的假设函数：

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ n x n

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n$ 为了简化，令

x0=1 x 0 = 1 $x_0=1$ ，则假设函数转换为：

h θ (x) = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ n x n

$h_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n$ 令：

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 0 x 1 x 2 ⋮ x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 θ 2 ⋮ θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$x=\left[ \begin{matrix} x_0\\ x_1\\ x_2\\ \vdots\\ x_n \end{matrix} \right]\qquad \theta=\left[ \begin{matrix} \theta_0\\ \theta_1\\ \theta_2\\ \vdots\\ \theta_n \end{matrix} \right]$ 则得到多元线性回归模型：

h θ (x) = θ T x

$h_\theta(x)=\theta^Tx$ 模型参数为：

θ0,θ1,⋯,θn θ 0 , θ 1 , ⋯ , θ n $\theta_0,\theta_1,\cdots,\theta_n$ (可以想象为一个

n+1 n + 1 $n+1$ 维向量)
代价函数为：

J (θ 0, θ 1, \dots, θ n) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta_0,\theta_1,\cdots,\theta_n)={1\over2m} \sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2$ 梯度下降法：Repeat {

θ j : = θ j - α \partial \partial θ j J (θ 0, θ 1, \dots, θ n) (同 时 更 新 θ j, f o r j = 0, \dots, n)

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1,\cdots,\theta_n)\qquad (同时更新\theta_j,for\ j=0,\cdots,n)$ }
当

n≥1 n ≥ 1 $n\ge1$ 时，形式为：
Repeat {

θ j : = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j (同 时 更 新 θ j, f o r j = 0, \dots, n)

$\theta_j:=\theta_j-\alpha{1\over m} \sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j\\ (同时更新\theta_j,for\ j=0,\cdots,n)$ }
上式即为多元线性回归的梯度下降法。

特征缩放( $feature\ scaling$ )：确保各特征取值在一个相近的范围，梯度下降法可以更快收敛。
目的：将每个特征的取值约束在 $[-1,1]$ 的范围，即 $-1\le x_i\le1$ ，当然，并非如此严格

举例： $x_1:size(0-2000),x_2:number(1-5)$

方法1：将特征除以其最大值
具体： $x_1= {size\over2000}\qquad x_2={number\over5}$
则： $0\le x_1\le1\qquad {1\over5}\le x_2\le1$

方法2：均值归一化，相对方法1来说，用 $x_i-\mu_i$ 代替 $x_i$ 来确保特征值具有0的平均值
具体： $x_1={size-1000\over 2000}\qquad x_2={number-2\over 5}$
则： $-0.5\le x_1\le0.5\qquad -0.5\le x_1\le0.5$ (约)

综合上述两种方法，得到进阶标准法：
令 $x_i\to {x_i-\mu_i\over s_i}$ ，其中： $\mu_i$ 为 $x_i$ 取值的平均值， $s_i$ 为 $x_i$ 取值的最大值 $-$ 最小值或 $x_i$ 取值的均方差。

确保梯度下降法是否运行正确的方法： $J(\theta)$ (代价函数)在每次迭代后都应减小。

自动收敛检测：当 $J(\theta)$ 在一次迭代后减少得少于一个很小的值，比如 $10^{-3}$ ，可以认为已收敛。

对于足够小的 $\alpha$ 来说， $J(\theta)$ 应该在每次迭代后都减小，但如果 $\alpha$ 太小，梯度下降法收敛得很慢，如果 $\alpha$ 太大， $J(\theta)$ 不一定会在每次迭代后都减小，不一定会收敛。

当线性假设函数不能适用于所有的样本时，可以通过对特征值进行平方、立方或开方来进行调整。

正规方程(Normal Equation)：为某些线性回归问题，提供了一种求 $\theta$ 的解析解法。
当 $\theta$ 为一个 $n+1$ 维的参数向量，即多元线性回归问题时：
代价函数为：

J (θ 0, θ 1, \dots, θ n) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta_0,\theta_1,\cdots,\theta_n)={1\over2m} \sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2$ 求解

θ θ $\theta$ 的方法：

\partial \partial θ j J (θ) = \dots = 0 (f o r e v e r y j)

$\frac{\partial}{\partial \theta_j}J(\theta)=\cdots=0\qquad (for\ every\ j)$

s o l v e f o r θ 0, θ 1, \dots, θ n

$solve\ for\ \theta_0,\theta_1,\cdots,\theta_n$
当有

m m $m$ 个样本

(x^{(1)}, y^{(1)}), \dots, (x^{(m)}, y^{(m)})

$(x^{(1)},y^{(1)}),\cdots,(x^{(m)},y^{(m)})$ ，

n n $n$ 个特征量，则：

x^{(i)} = [\begin{matrix} x_{0}^{(i)} \\ x_{1}^{(i)} \\ x_{2}^{(i)} \\ ⋮ \\ x_{n}^{(i)} \end{matrix}] 设 计 矩 阵 ： X = [\begin{matrix} (x^{(1)})^{T} \\ (x^{(2)})^{T} \\ ⋮ \\ (x^{(m)})^{T} \end{matrix}]

$x^{(i)}=\left[ \begin{matrix} x^{(i)}_0\\ x^{(i)}_1\\ x^{(i)}_2\\ \vdots\\ x^{(i)}_n \end{matrix} \right]\qquad 设计矩阵：X=\left[ \begin{matrix} (x^{(1)})^T\\ (x^{(2)})^T\\ \vdots\\ (x^{(m)})^T \end{matrix} \right]$

X X $X$ 是一个

m * (n + 1)

$m*(n+1)$ 维矩阵
使得线性回归的代价函数

J(θ) J ( θ ) $J(\theta)$ 最小化的

θ θ $\theta$ 值：

θ = (X T X) - 1 X T y

$\theta=(X^TX)^{-1}X^Ty$ 在

Octave O c t a v e $Octave$ 中的表示方法：

pinv(X′∗X)∗X′∗y p i n v ( X ′ ∗ X ) ∗ X ′ ∗ y $pinv(X'*X)*X'*y$

使用正规方程法时，不需要归一化特征变量，但使用梯度下降法时，归一化特征变量就很重要。

当有 $m$ 个训练样本， $n$ 个特征向量时，比较梯度下降法和正规方程法：
1. 梯度下降法：
- 需要选择学习速率 $\alpha$ ；
- 需要进行多次迭代；
- 当 $n$ 很大时也能运行得很好，算法复杂度为 $O(kn^2)$ 。
2. 正规方程法：
- 不需要选择学习速率 $\alpha$ ；
- 不需要进行迭代；
- 需要计算 $(X^TX)^{-1}$ ，当 $n$ 很大时计算得很慢，算法复杂度为 $O(n^3)$