机器学习：正规方程(Normal Equation)的推导

最新推荐文章于 2024-10-19 12:46:24 发布

烤粽子

最新推荐文章于 2024-10-19 12:46:24 发布

阅读量2.9k

点赞数 6

分类专栏：机器学习数学文章标签：机器学习数学

本文链接：https://blog.csdn.net/Mao_Jonah/article/details/82119408

版权

6 篇文章

订阅专栏

2 篇文章

订阅专栏

在coursera上看了Andrew Ng的《Machine Learning》课程，里面讲到了正规方程(Normal Equation)，现在在此记录一下推导过程。
假设函数(Hypothesis Function)为：

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ n x n

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n$
此处我们可以令 $x_0=1$ .
代价函数(Cost Function):

J (θ) = J (θ 0, \dots, θ n) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta)=J(\theta_0,\ldots,\theta_n)=\frac {1} {2m} \sum_{i=1}^{m} {(h_\theta(x^{(i)})-y^{(i)})^2}$
我们想要代价函数的最小解，对代价函数进行求导。因为对于向量我们有

zTz=∑iz2i z T z = ∑ i z i 2 $z^Tz=\sum_{i} z_i^2$ ,所以：

J (θ) = 1 2 m (X θ - y) T (X θ - y)

$J(\theta)=\frac {1}{2m}(X\theta-y)^T(X\theta-y)$
因为 $\frac {1} {2m}$ 部分对最终的解没影响，为了便于书写和计算，我们可以先将这部分舍去。对方程的转置进行化简：

J (θ) = (θ T X T - y T) (X θ - y)

$J(\theta)=(\theta^TX^T-y^T)(X\theta-y)$

J (θ) = θ T X T X θ - (X θ) T y - y T X θ + y T y

$J(\theta)=\theta^TX^TX\theta-(X\theta)^Ty-y^TX\theta+y^Ty$
因为 $x\theta和y$ 都是矢量，所以这两者相乘先后顺序没有关系，所以可以化简成：

J (θ) = θ T X T X θ - 2 (X θ) T y + y T y

$J(\theta)=\theta^TX^TX\theta-2(X\theta)^Ty+y^Ty$
接着方程

J(θ)对θ J ( θ ) 对 θ $J(\theta)对\theta$ 进行求导:

\partial \partial θ J (θ) = 2 X T X θ - 2 X T y = 0

$\frac {\partial}{\partial\theta}J(\theta)=2X^TX\theta-2X^Ty=0$ 1
$\frac {\partial}{\partial\theta}J(\theta)=0时，得到最合适\theta$

X T X θ = X T y

$X^TX\theta=X^Ty$
两边同时乘以 $X^TX$ 的逆矩阵，得：

θ = (X T X) - 1 X T y

$\theta=(X^TX)^{-1}X^Ty$
此即为正规方程。当

θ=(XTX)−1XTy θ = ( X T X ) − 1 X T y $\theta=(X^TX)^{-1}X^Ty$ 时，代价方程有最优解。