学习笔记机器学习2.2

最新推荐文章于 2024-07-30 11:24:09 发布

Dove_forehead

最新推荐文章于 2024-07-30 11:24:09 发布

阅读量199

点赞数 1

分类专栏：机器学习文章标签： 18-03-22

本文链接：https://blog.csdn.net/Dove_forehead/article/details/79659314

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

参数计算分析——Computing Parameters Analytically

==================

正规方程——Normal Equation

介绍一种有别于梯度下降算法的算法，正规方程
正规方程——一种直接一次性求解 $\theta$ 的最优值解析。

正规方程
算法
已知：
在参数为1D的情况下： $J(\theta)=a \theta^2 + b \theta + c$
在参数为多个的情况下：
$\theta \in R^{n+1}, J(\theta_0,\theta_1,...,\theta_m)= \frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
求：
$\cfrac{\partial}{\partial\theta}J(\theta)=···=0 \space \space (for \space every\space j)$
求解 $\theta_0,\theta_1,...,\theta_n$

**Example：**m=4

	Size (feet*feet)	Number of bedrooms	Number of floors	Age of home(years)	Price ($1000)
$x_0$	$x_1$	$x_2$	$x_3$	$x_4$	$y$
1	2104	5	1	45	460
1	1416	3	2	40	232
1	1534	3	2	30	315
1	852	2	1	36	178

则：

X = [\begin{matrix} 1 & 2104 & 5 & 1 & 45 & 460 \\ 1 & 1416 & 3 & 2 & 40 & 232 \\ 1 & 1534 & 3 & 2 & 30 & 315 \\ 1 & 852 & 2 & 1 & 36 & 178 \end{matrix}]

$X = \begin{bmatrix}1&2104&5&1&45&460\\ 1&1416&3&2&40&232\\ 1&1534&3&2&30&315\\ 1&852&2&1&36&178\end{bmatrix}$

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 460232315178 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$y =\begin{bmatrix}460\\232\\315\\178\end{bmatrix}$
所以

X X $X$ 是一个

m * (n + 1)

$m*(n+1)$ 的矩阵，

y y $y$ 是一个

m

$m$ 维的向量。其中 $m$ 是训练样本的数量， $n$ 是特征的数量。
正规方程的运算公式为：

θ = (X T X) - 1 X T y

$\theta=(X^TX)^{-1}X^Ty$
一般情况下：

m m $m$ example

(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), (x^{(m)}, y^{(m)})

$(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(m)},y^{(m)})$ ;

n n $n$ feature.

x^{(i)} = [\begin{matrix} x_{0}^{(i)} \\ x_{1}^{(i)} \\ . \\ . \\ . \\ x_{n}^{(i)} \end{matrix}] \in R^{n + 1}

$x^{(i)}=\begin{bmatrix}x_0^{(i)}\\x_1^{(i)}\\.\\.\\.\\x_n^{(i)}\end{bmatrix}\in R^{n+1}$
转换为：

x(i)=⎡⎣⎢⎢⎢⎢⎢⎢⎢—(x(1))T——(x(2))T—...—(x(m))T—⎤⎦⎥⎥⎥⎥⎥⎥⎥∈Rn+1 x ( i ) = [ — ( x ( 1 ) ) T — — ( x ( 2 ) ) T — . . . — ( x ( m ) ) T — ] ∈ R n + 1 $x^{(i)}=\begin{bmatrix}—(x^{(1)})^T—\\—(x^{(2)})^T—\\.\\.\\.\\—(x^{(m)})^T—\end{bmatrix}\in R^{n+1}$
根据正规方程，可以得到参数的计算公式为：

θ = (X T X) - 1 X T y

$\theta = (X^TX)^{-1}X^Ty$
梯度下降和正规方程的对比：

m m $m$ 个训练样本，

n

$n$ 个特征。

梯度下降	正则方程
需要选择学习率	不需要选择学习率
需要很多次迭代	不需要多次迭代
特征集较大时运行良好	特征集较大时运算较慢需要计算 $(X^TX)^{-1}$
$O(kn^2)$	$O(n^3)$