多元函数的梯度下降

最新推荐文章于 2023-12-31 01:48:51 发布

ordinary_brony

最新推荐文章于 2023-12-31 01:48:51 发布

阅读量1.9k

点赞数 1

分类专栏：机器学习文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/ordinary_brony/article/details/108033909

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

文章目录

导读
问题
变量确认
代价函数的确认
目标函数最终展开

导读

前一篇梯度下降仅仅只是针对梯度下降的原理和流程作了一些阐释，用三个维度的例子说明了一个通用解法。而这里才是实际应用的具体表现，同时也包含很多小技巧。

问题

这里就还是用你的猫娘作为例子，但是这次代入了更多自变量：

你再次收集了20万猫娘的信息，包括年龄（age）、体重（weight）、身高（height）、最大跳跃距离（distence）、胸围（bust）、腰围（waist）、臀围（hip）、基础社会科学考试分数（score）……

虽然可能还有很多指标，但是现在就先列举这8项。是不是觉得非常的麻烦？而且这下我们连图都画不出来了，甚至无法想象8个自变量如何构成一个解空间，更无法想象涉及8个自变量的函数将会是怎样一个扭曲的形态。

行，套公式嘛，矩阵求解。

变量确认

你整理出了一张含有 $n$ 行数据的表，其中每一行数据都代表一只猫娘的所有收集到的信息，所以你为每一行整理了一个矩阵：

$\left[\begin{matrix} age_i\\weight_i\\height_i\\distance_i\\bust_i\\waist_i\\hip_i \end{matrix}\right],i\in\{1,2,3,\ldots,n\}$

这里插播一句：

因为面对这样一个生物，对于科研人员来说就是个名副其实的黑匣子：什么都不知道，只知道输入和输出。所以在确定函数关系式的时候相当的麻烦。所以往往是一个个变量分析，优先找出一个个独立不相关的变量，然后分析相关变量的影响。这里就完全不是拟合算法能够做到的了，而是来自不同领域的科研人员齐心协力研究发现最终的出来的结果。这里因为赌的成分过高，并且和梯度下降并没有什么直接的关系，所以直接跳过。现在就直接跳到你找到了每个自变量的精确幂指数和对数底数以及对应的线性关系的情况。

然后你又双叒叕凭着你对猫娘的热爱找出了这8个变量的大致关系：

代价函数的确认

当然，代价函数就是我们需要训练的目标函数。只要代价函数最小，我们最后训练的结果就会接近事实。

可是，光是二元函数构成的三维图就已经包含了很多的不确定性，陷入局部最优解、收敛慢、内存溢出……这都是很无奈但是可控的问题。不如我们把思维逆转过来：既然没有便利，就创造便利。

$y=f(age,weight,height,distance,bust,waist,hip)\\ \Downarrow\\ y=\epsilon+\alpha_1age+\alpha_2weight^2+\alpha_3height+\alpha_4distance^3+\frac{\alpha_5}{3}(b^2+waist^2+hip^2)$

其中，

$\epsilon,\alpha_1,\alpha_2,\alpha_3,\alpha_4,\alpha_5\in\mathbb{R}$

如果你还有印象，那么你应该记得 $\epsilon$ 服从正态分布 $N(0,\sigma^2)$ ，是随机误差。在一开始决定各种自变量的系数的时候往往会先忽视这个小东西，然后在全部得出结果之后加上以保证函数能够兼容一些“偶然”

看到这样群魔乱舞的函数，你感觉到背脊发凉。完全没办法想象的解空间、完全无法想象的图形走向，更不用说最终目标的图像意义都无法解释……（~~当然，这里是为了节目效果如此设计的~~。）

这没难倒你。你把式子化为矩阵形式表达，就变成了这样：

$y=\left[\begin{matrix} 1&\alpha_1&\alpha_2&\alpha_3&\alpha_4&\alpha_5\over3&\alpha_5\over3&\alpha_5\over3 \end{matrix} \right]\times\left[\begin{matrix} \epsilon\\age\\weight^2\\height\\distance^3\\bust^2\\waist^2\\hip^2 \end{matrix}\right]$

再简化一些，更抽象一些，那就成为了：

$y=\alpha^T\eta$

其中， $\alpha$ 是待定系数的矩阵，而 $\eta$ 则是自变量经过各自合适变化之后的矩阵，即：

$\alpha^T=\left[\begin{matrix} \alpha_1&\alpha_2\cdots\alpha_n \end{matrix}\right]_n,\\ \eta=\left[\begin{matrix} \eta_1\\\eta_2\\\vdots\\\eta_n \end{matrix}\right]_n,$

这里的 $\eta$ 特指我们刚刚发现的列向量：

$\eta=\left[\begin{matrix} \epsilon\\age\\weight^2\\height\\distance^3\\bust^2\\waist^2\\hip^2 \end{matrix}\right]$

如果你觉得麻烦，完全可以把系数相同、幂指数相同的 $b u s t$ 、 $w a i s t$ 和 $h i p$ 作为一个整体。这就看你能有多灵活了。

到这里，也就只是单纯的将变量合并，将复杂的公式变成简单易懂的矩阵向量，强行转成2个矩阵维度的解空间。当然，我们还是想象不到，只不过大致可以理解为某种类似 $x$ 轴和 $y$ 轴的神奇坐标轴在帮助我们标记位置。这么一想的话，就算是不能想象数轴的样子，也能够想象出解空间是个什么样了，而我们最终要求的目标函数最小值大概也能模模糊湖地猜出来在哪。