机器学习 | 向量化

最新推荐文章于 2024-07-31 21:07:54 发布

crawlertinux

最新推荐文章于 2024-07-31 21:07:54 发布

阅读量751

点赞数 1

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/shaotianyang12/article/details/108171294

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

前言

下面对线性回归模型、代价函数、梯度下降算法等基础概念进行向量化。在这里我们讨论的都是这些概念的最一般的形式，毕竟，数学家都喜欢这么做。

一、线性回归模型

线性回归模型最一般的形式为：

$h_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n$

令 $\theta=\left[\begin{array}{c}\theta_0 \\ \theta_1\\\vdots\\\theta_n\end{array}\right]$ ， $y=\left[\begin{array}{cc}y^{(1)}\\y^{(2)}\\\vdots \\y^{(m)} \end{array}\right]$

对于 $x_1, x_2,\cdots,x_n$ 如何用向量表示，其实就我目前所知，有两种不同的设法，讨论如下：

第一种：

令 $X=\left[\begin{array}{c}x_0 \\ x_1\\\vdots\\x_n\end{array}\right]$

则 $h_\theta(x)=\theta^TX=X^T\theta$

这种 $X$ 的设法可以让 $h_\theta(x)$ 的表达式简化一些。

第二种则更实用一些（做编程作业时）：

令 $X=\left[ \begin{array}{cc}x_0 & x_1^{(1)} & \cdots & x_n^{(1)} \\ x_0 & x_1^{(2)} & \cdots & x_n^{(2)} \\ \vdots & \vdots & & \vdots \\ x_0 & x_1^{(m)} & \cdots & x_n^{(m)} \end{array} \right]$

对于这种设法，可以理解为以特征为列，以数据样本为行。

并且此时的 $h_\theta(x)$ 需要改写一下：

$h_\theta(x^{(i)})=\theta_0x_0^{(i)}+\theta_1x_1^{(i)}+\theta_2x_2^{(i)}+\cdots+\theta_nx_n^{(i)}$

然后令 $h_\theta(x)=\left[\begin{array}{cc}h_\theta(x^{(1)})\\h_\theta(x^{(2)}) \\\vdots \\ h_\theta(x^{(m)}) \end{array}\right]$

于是有， $h_\theta(x)=X\theta$

在接下来的向量化推导中我都将采用第二种设法。

二、代价函数

代价函数的一般形式：

$\left( \theta\right) = \frac{1}{2m}\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}$

其中 $\theta=\left[\begin{array}{c}\theta_0 \\ \theta_1\\\vdots\\\theta_n\end{array}\right]$

对代价函数进行向量化的结果为：

$\left( \theta \right)=\frac{1}{2m}\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}=\frac{1}{2m}(X\theta-y)\cdot(X\theta-y)$

注意这里 $(X\theta-y)$ 与 $(X\theta-y)$ 之间使用的是点积。

具体推导过程如下：

$X\theta-y=h_\theta{(x)}-y=\left[\begin{array}{cc}h_\theta(x^{(1)})\\h_\theta(x^{(2)}) \\\vdots \\ h_\theta(x^{(m)}) \end{array}\right]-\left[\begin{array}{c}y^{(1)}\\y^{(2)}\\\vdots\\y^{(m)}\end{array}\right]= \left[\begin{array}{cc}h_\theta(x^{(1)})-y^{(1)}\\h_\theta(x^{(2)})-y^{(2)} \\\vdots \\ h_\theta(x^{(m)})-y^{(m)} \end{array}\right]$

于是有，

$(X\theta-y)\cdot(X\theta-y)= \left[\begin{array}{cc}h_\theta(x^{(1)})-y^{(1)}\\h_\theta(x^{(2)})-y^{(2)} \\\vdots \\ h_\theta(x^{(m)})-y^{(m)} \end{array}\right] \cdot \left[\begin{array}{cc}h_\theta(x^{(1)})-y^{(1)}\\h_\theta(x^{(2)})-y^{(2)} \\\vdots \\ h_\theta(x^{(m)})-y^{(m)} \end{array}\right]$

$\\= \left( h_{\theta}(x{(1)})-y^{(1)} \right)^{2}+\left( h_{\theta}(x^{(2)})-y^{(2)} \right)^{2}+\cdots+\left( h_{\theta}(x^{(m)})-y^{(m)} \right)^{2}$

$\\ \\=\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}$

总结：

$\left( \theta \right)=\frac{1}{2m}(X\theta-y)\cdot(X\theta-y)$

…有没有隐约地感觉到数学的美妙之处？

三、梯度下降算法

梯度下降函数的一般形式为：

$\theta_j:=\theta_j-\alpha\frac{1}{m}\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j$ 其中， $0\leq j \leq n$

将上式进行向量化后的结果：

$\theta :=\theta-\alpha\frac{1}{m}X^T(X\theta-y)$

其中 $\theta=\left[\begin{array}{c}\theta_0 \\ \theta_1\\\vdots\\\theta_n\end{array}\right]$ ， $X=\left[ \begin{array}{cc}x_0^{(1)} & x_1^{(1)} & \cdots & x_n^{(1)} \\ x_0^{(2)} & x_1^{(2)} & \cdots & x_n^{(2)} \\ \vdots & \vdots & & \vdots \\ x_0^{(m)} & x_1^{(m)} & \cdots & x_n^{(m)} \end{array} \right]$ ， $y=\left[\begin{array}{cc}y^{(1)}\\y^{(2)}\\\vdots \\y^{(m)} \end{array}\right]$

推导过程如下：

令 $\theta :=\theta-\alpha\frac{1}{m}\delta$ ，显然， $\delta=\left[\begin{array}{cc}\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_0\\\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_1 \\\vdots \\ \sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_n \end{array}\right]$

则有 $\delta= \left[\begin{array}{cc}\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_0\\\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_1 \\\vdots \\ \sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_n \end{array}\right]\quad$

$\\= \left[\begin{array}{cc}\left( h_{\theta}(x^{(1)})-y^{(1)} \right)x^{(1)}_0+\left( h_{\theta}(x^{(2)})-y^{(2)} \right)x^{(2)}_0+\cdots+\left( h_{\theta}(x^{(m)})-y^{(m)} \right)x^{(m)}_0 \\ \left( h_{\theta}(x^{(1)})-y^{(1)} \right)x^{(1)}_1+\left( h_{\theta}(x^{(2)})-y^{(2)} \right)x^{(2)}_1+\cdots+\left( h_{\theta}(x^{(m)})-y^{(m)} \right)x^{(m)}_1 \\ \vdots \\ \left( h_{\theta}(x^{(1)})-y^{(1)} \right)x^{(1)}_n+\left( h_{\theta}(x^{(2)})-y^{(2)} \right)x^{(2)}_n+\cdots+\left( h_{\theta}(x^{(m)})-y^{(m)} \right)x^{(m)}_n\\ \end{array}\right]$

$\\=\left[\begin{array}{cc}x_0^{(1)} & x_0^{(2)} & \cdots & x_0^{(m)} \\ x_1^{(1)} & x_1^{(2)} & \cdots & x_1^{(m)} \\ \vdots & \vdots & & \vdots \\ x_n^{(1)} & x_n^{(2)} & \cdots & x_n^{(m)}\end{array}\right] \left[\begin{array}{cc}h_\theta(x^{(1)})-y^{(1)}\\h_\theta(x^{(2)})-y^{(2)} \\\vdots \\ h_\theta(x^{(m)})-y^{(m)} \end{array}\right]$

很明显， $\left[\begin{array}{cc}x_0^{(1)} & x_0^{(2)} & \cdots & x_0^{(m)} \\ x_1^{(1)} & x_1^{(2)} & \cdots & x_1^{(m)} \\ \vdots & \vdots & & \vdots \\ x_n^{(1)} & x_n^{(2)} & \cdots & x_n^{(m)}\end{array}\right]=X^T$ ，又因为 $X\theta-y= \left[\begin{array}{cc}h_\theta(x^{(1)})-y^{(1)}\\h_\theta(x^{(2)})-y^{(2)} \\\vdots \\ h_\theta(x^{(m)})-y^{(m)} \end{array}\right]$