如何用矩阵乘法重写计算梯度函数

最新推荐文章于 2022-09-02 21:05:20 发布

梓沂

最新推荐文章于 2022-09-02 21:05:20 发布

阅读量592

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_27361945/article/details/109489299

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在这里插入图片描述
如何用矩阵乘法重写计算梯度函数

中间比较难理解的部分是求和符号转换成矩阵乘法。

在吴恩达课程的练习文档中，已经把每个子项列出：
在这里插入图片描述
等式右边还有许多细节需要明确：
针对其中的一项 $x_0^{(i)}$ 来说：

$x_0^{(i)}$ 是一个数（标量），比如是6，但是加上求和符号 $\sum$ 后， $x_0^{(i)}$ 就变成一串数：“6，3，2…， $x_0^{(i)}$ ”，一共是m个 $x_0$ （样本），在练习中一共5000个 $x_0$ ，m=5000；
在这里插入图片描述

$x_1^{(i)}$ 是一个数（标量），比如是2，但是加上求和符号 $\sum$ 后， $x_1^{(i)}$ 就变成一串数：“2，5，7…， $x_1^{(i)}$ ”，一共是m个 $x_1$ （样本），在练习中一共5000个 $x_1$ ，m=5000；
$x_2^{(i)}$ 是一个数（标量），比如是8，但是加上求和符号 $\sum$ 后， $x_2^{(i)}$ 就变成一串数：“8，9，1…， $x_2^{(i)}$ ”，一共是m个 $x_2$ （样本），在练习中一共5000个 $x_2$ ，m=5000；

在这里插入图片描述
$x_0^{(i)}$ 的上标（i），表示第几个样本，（i）的范围是从1到5000。

在这里插入图片描述

$x_0^{(i)}$ $x_1^{(i)}$ $x_2^{(i)}$ 的下标0、1、2…n，表示在多项式中的第几个变量（输入值），练习中是400个输入，n=400

每个样本都有400个变量，一共有5000组样本，组合起来是一个400×5000的矩阵。

将第一步化简到第二步：
在这里插入图片描述
第一步中每个分项的 $(h_\theta(x^{(i)})-y^{(i)})$ 都是同样的序列，合并后没有变化：

$(h_\theta(x^{(i)})-y^{(i)})$ 用向量方式表示，可以写为1×5000向量。

$x_0^{(i)}$ $x_1^{(i)}$ $x_2^{(i)}$ … $x_n^{(i)}$ ，合并后由原来的400个标量 $x_n^{(i)}$ 变为向量 $x^{(i)}$ ：

在这里插入图片描述
$x^{(i)}$ 有5000组值，对应 $x^{(1)}$ 到 $x^{(5000)}$
$x^{(1)}$ = [ $x_0^{(1)}$ , $x_1^{(1)}$ , $x_2^{(1)}$ …] = [6,2,8…]
$x^{(2)}$ = [ $x_0^{(2)}$ , $x_1^{(2)}$ , $x_2^{(2)}$ …] = [3,5,9…]
$x^{(3)}$ = [ $x_0^{(3)}$ , $x_1^{(3)}$ , $x_2^{(3)}$ …] = [2,7,1…]
$x^{(i)}$ = [ $x_0^{(i)}$ , $x_1^{(i)}$ , $x_2^{(i)}$ …]

如果不考虑样本，通用的表示方式为：
$x$ = [ $x_0$ , $x_1$ , $x_2$ …]

每个分项的 $x_0^{(1)}$ ， $x_0^{(2)}$ ， $x_0^{(3)}$ ， $x_0^{(4)}$ ， $x_0^{(5)}$ … ， $x_0^{(5000)}$ 都要与5000个 $(h_\theta(x^{(1)})-y^{(1)})$ ， $(h_\theta(x^{(2)})-y^{(2)})$ ， $(h_\theta(x^{(3)})-y^{(3)})$ ， $(h_\theta(x^{(4)})-y^{(4)})$ ， $(h_\theta(x^{(5)})-y^{(5)})$ ，…， $(h_\theta(x^{(5000)})-y^{(5000)})$ 对应相乘：

$x_0^{(1)}$ × $(h_\theta(x^{(1)})-y^{(1)})$
+
$x_0^{(2)}$ × $(h_\theta(x^{(2)})-y^{(2)})$
+
$x_0^{(3)}$ × $(h_\theta(x^{(3)})-y^{(3)})$
+
$x_0^{(4)}$ × $(h_\theta(x^{(4)})-y^{(4)})$
+
$x_0^{(5)}$ × $(h_\theta(x^{(5)})-y^{(5)})$
+
…
+
$x_0^{(5000)}$ × $(h_\theta(x^{(5000)})-y^{(5000)})$

用向量表示就是：
$x_0= \left[ \begin{array}{ccc} x_0^{(1)}\\ x_0^{(2)}\\ x_0^{(3)}\\ x_0^{(4)}\\ x_0^{(5)}\\ ...\\ x_0^{(5000)} \end{array}\right]$

$\beta= \left[ \begin{array}{ccc} (h_\theta(x^{(1)})-y^{(1)})\\ (h_\theta(x^{(2)})-y^{(2)})\\ (h_\theta(x^{(3)})-y^{(3)})\\ (h_\theta(x^{(4)})-y^{(4)})\\ (h_\theta(x^{(5)})-y^{(5)})\\ ...\\ (h_\theta(x^{(5000)})-y^{(5000)}) \end{array}\right]$

分项求和项 $\sum\limits_{i=1}^m\left((h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}\right)$
可通过向量乘法表示为 $(x_0)^T\beta$
把 $x_0$ 横向扩展到 $x_1$ $x_2$ $x_3$ … $x_{400}$ 就是矩阵乘法 $X^T\beta$

吴恩达课程中是另一种思路，先将 $x_1$ $x_2$ $x_3$ … $x_{400}$ 聚合成 $x$ 向量，把每行分项的标量×标量的求和，聚合成标量×向量的求和。这个转换中难以理解的是还带着一个求和符号，如果去掉求和符号就很好理解：
在这里插入图片描述
如果i的范围是从1到2，只有两个数，那么求和符号可以被加法+代替

在这里插入图片描述

替换为： $\frac1m(\beta^{(1)}x^{(1)}+\beta^{(2)}x^{(2)})$
即： $\frac1m\sum\limits_{i=1}^2\beta^{(i)}x^{(i)}$

梓沂

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
如何用矩阵乘法重写计算梯度函数

如何用矩阵乘法重写计算梯度函数中间比较难理解的部分是求和符号转换成矩阵乘法。在吴恩达课程的练习文档中，已经把每个子项列出：等式右边还有许多细节需要明确：针对其中的一项x0(i)x_0^{(i)}x0(i)来说：x0(i)x_0^{(i)}x0(i)是一个数（标量），比如是6，但是加上求和符号∑\sum∑后，x0(i)x_0^{(i)}x0(i)就变成一串数：“6，3，2…，x0(i)x_0^{(i)}x0(i)”，一共是m个x0x_0x0（样本），在练习中一共5000个x0x_0x.
复制链接

扫一扫