数学基础（一）：无约束优化问题

最新推荐文章于 2023-12-27 17:21:06 发布

拙能胜巧nsq

最新推荐文章于 2023-12-27 17:21:06 发布

阅读量1.2k

点赞数 1

分类专栏： AI数学基础系列

本文链接：https://blog.csdn.net/qq_20106375/article/details/94891231

版权

数学基础系列博客是自己在学习了稀牛学院&网易云课堂联合举办的《人工智能数学基础》微专业后的课程笔记总结。怀着对授课讲师Jason博士无限的敬佩与感激之情，我在完整听了两遍课程之后，对这门进行了笔记整理。Jason博士用深入浅出的方式把数学知识真的是讲透彻了，我的笔记显然无法完整传达Jason博士的精彩授课内容，在此非常推荐每一个打算进入或了解AI的同学去学习这门课程！

一：问题引入：线性回归问题

现在，我有如下一组关于病人收缩压的数据，包括患者姓名，性别，年龄，体重等信息，每一种信息为表中的一列。数据其中第6列为病人的收缩压。根据已有的这些数据记录，我需要对新的病例进行预测，那么怎么办呢？按照机器学习的方法，是首先对已有的数据进行训练，得到一个模型，然后利用该模型对新的未知病例进行预测。

符号说明：

1. $\left\{\left(x^{(i)}, y^{(i)}\right)\right\}$ 是一个训练样本，其中上角标 $i$ 表示样本的编号；

2. $\left\{\left(x^{(i)}, y^{(i)}\right) ; i=1, \cdots, N\right\}$ 是训练样本集，共有 $N$ 个样本；

3. $\left\{\left(x_{1}^{(i)}, x_{2}^{(i)}, y^{(i)}\right)\right\} \rightarrow\left\{\left(\mathbf{x}^{(i)}, y^{(i)}\right)\right\}, \mathbf{x}^{(i)}=\left[ \begin{array}{c}{x_{1}^{(i)}} \\ {x_{2}^{(i)}}\end{array}\right]$ ，将多个影响因素组合成一个向量表示。其中 $\mathbf{x}^{(i)}$ 表示特征， $y^{(i)}$ 表示预测值（标签值）。

上图便是我们熟悉的线性回归模型，只不过是一维情况下的示意图。在实际的机器学习过程中，影响 $y$ 的因素肯定不只有一个，就拿上述收缩压的例子来讲，影响收缩压的因素就有性别，年龄等诸多因素。因此，一维情形下的线性回归模型肯定不能够满足要求。这就引出了多维情形下的线性回归模型。

以下对一维和多维情形下的线性回归问题进行对比观察：

对于一维的线性回归，试图学习： $f (x) = w x + b$ ，使得 $f\left(x^{(i)}\right) \approx y^{(i)}$
对于多维的线性回归，试图学习： $f(\mathrm{x})=w^{T} \mathrm{x}+b$ ，使得 $f\left(\mathrm{x}^{(i)}\right) \approx y^{(i)}$ ，其中输入为向量，输出是标量。 $w^{T}\mathrm{x}$ 代表向量内积（或者称为向量点乘），最终的结果是一个具体的数字（标量）。在线性代数中，向量默认是列向量。

接下来，核心的问题就在于怎么学到 $w$ 和 $b$ ?

二：无约束优化梯度分析法

2.1 定义无约束优化问题

自变量为标量的函数 $f$ : $R\rightarrow R$ :
$\min f(x) \quad x \in {R}$
自变量为向量的函数 $f$ : $R^{n}\rightarrow R$ :
$minf(\mathrm{x}) \quad \mathrm{x} \in R^{n}$
通过将一维和多维情形下的优化函数进行对比，我们可以清楚的明白，优化问题的目的是求一个函数的最小值。在一维情况下，自变量为标量，而在多元情况下，自变量变成向量，但是最优的函数值依旧是标量。在实际应用中，一元的情况很少见，最常见到的就是多元的情况，而且自变量 $\mathrm{x}$ 的维度有可能非常高。

优化问题可能的极值点情况：

]

第一个图有极小值，第二个图有极大值，第三个图有鞍点(saddle point)，可以类比（ $x^{3} \quad x = 0$ ）的情况。第四张图中，既有极大值也有极小值，而且有局部极大（小）值。在实际的应用中，最常出现的是最后一种图，当维度很高时，我们有时候根本就不可能知道函数到底是什么样子的，也无法可视化。而且我们往往只能找到函数的局部极值，很难找到函数的全局最值（客观条件所限）。但是能够找到函数的局部极值也是非常有意义的。

2.2 梯度和Hessian矩阵

同样采用一阶和二阶对照的角度来理解

一阶导数和梯度： $\quad \mathbf{g}(\mathbf{x})=\nabla f(\mathbf{x})=\frac{\partial f(\mathbf{x})}{\partial \mathbf{x}}=\left[ \begin{array}{c}{\frac{\partial f(\mathbf{x})}{\partial x_{1}}} \\ {\vdots} \\ {\frac{\partial f(\mathbf{x})}{\partial x_{n}}}\end{array}\right]$

注解：

导数的大小代表了函数在某个方向上变化的快慢；梯度的方向为函数值增加最快的方向。梯度本身是一个n维向量。
一阶导数为对x（标量）求导，二阶导数为对 $\mathbf{x}$ (n维的向量）求导，结果为 $f$ 对向量中的每一个 $x$ 单独求导，然后组成一个向量（列向量）。

二阶导数和Hessian矩阵：
$f^{\prime\prime}(x) ; \quad \mathbf{H}(\mathbf{x})=\nabla^{2} f(\mathbf{x})=\left[ \begin{array}{ccc}\begin{array}{ll}{\frac{\partial^{2} f(\mathbf{x})}{\partial x_{1}^{2}}} & {\frac{\partial^{2} f(\mathbf{x})}{\partial x_{1} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(\mathbf{x})}{\partial x_{1} \partial x_{n}} \cdots} \\ {\frac{\partial^{2} f(\mathbf{x})}{\partial x_{2} \partial x_{1}}} & {\frac{\partial^{2} f(\mathbf{x})}{\partial x_{2}^{2}}} \\ {\frac{\partial^{2} f(\mathbf{x})}{\partial x_{n} \partial x_{1}}} & {\frac{\partial^{2} f(\mathbf{x})}{\partial x_{n} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(\mathbf{x})}{\partial x_{n}^{2}}}\end{array}\end{array}\right]=\nabla(\nabla f(\mathbf{x}))^{T}$

注解：

在多维情况下，二阶导数即为Hessian矩阵，在梯度的基础上再求一次导。是一个n $*$ n的矩阵。
Hessian矩阵其实是一个实对称矩阵，对角元相等。

2.3 二次型

2.3.1 定义

给定矩阵 $\mathbf{A} \in \mathbb{R}^{n \times n}$ ，函数
$\mathbf{x}^{T} \mathbf{A} \mathbf{x}=\sum_{i=1}^{n} x_{i}(\mathbf{A} \mathbf{x})_{i}=\sum_{i=1}^{n} x_{i}\left(\sum_{j=1}^{n} a_{i j} x_{j}\right)=\sum_{i=1}^{n} \sum_{j=1}^{n} x_{i} x_{j} a_{i j}$
被称为二次型。

给定对称矩阵 $\mathbf{A} \in \mathbb{R}^{n \times n}$ ，如果对于所有的 $\mathbf{x}\in{R }^n$ ,有

最低0.47元/天解锁文章

拙能胜巧nsq

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数学基础（一）：无约束优化问题

数学基础系列博客是自己在学习了稀牛学院&网易云课堂联合举办的《人工智能数学基础》微专业后的课程笔记总结。怀着对授课讲师Jason博士无限的敬佩与感激之情，我在完整听了两遍课程之后，对这门进行了笔记整理。Jason博士用深入浅出的方式把数学知识真的是讲透彻了，我的笔记显然无法完整传达Jason博士的精彩授课内容，在此非常推荐每一个打算进入或了解AI的同学去学习这门课程！一：问题引入：线性回...
复制链接

扫一扫