第1章数学基础和机器学习问题（范数+矩阵迹+矩阵求导+机器学习框架）

最新推荐文章于 2022-10-19 12:00:09 发布

有硬币就是土豪

最新推荐文章于 2022-10-19 12:00:09 发布

阅读量653

点赞数 2

分类专栏：俯视机器学习文章标签：机器学习数学矩阵求导范数最优化

本文链接：https://blog.csdn.net/gengli2017/article/details/116257920

版权

俯视机器学习专栏收录该内容

9 篇文章 4 订阅

订阅专栏

俯视机器学习

能看透人生，却看不透数学，有什么好处！

第1章数学基础和机器学习问题

1. 向量及矩阵

本课程讨论的向量默认都是列向量。向量和矩阵都只讨论实数情况。

1.1 向量内积

对向量 $x,y\in R^n$ ，其内积
$<x,y>=x^Ty = \sum_{i=1}^n x_i y_i$

内积满足交换律，即 $x^T y = y^T x$ .

1.2 矩阵的迹

对方阵 $A\in R^{n\times n}$ ，其迹为对角线元素之和。
$\sum_{i=1}^n A_{ii}$

性质（假设矩阵满足相关乘法或转置规则）：

$tr(A^T) = tr(A) \\ tr(A+B) = tr(A) + tr(B) \\ tr(AB) = tr(BA) \\ tr(ABC) = tr(BCA) = tr(CAB)$

方阵的迹等于其特征值之和。

1.3 矩阵内积

两个尺寸相关的矩阵的内积，定义为两矩阵逐元素相乘后的和，即
$\sum_{i,j}A_{ij} B_{ij} = tr(A^T B)$

2. 范数

2.1 定义

如果函数 $f:R^n \rightarrow R$ 的定义域为 ${\rm dom f}=R^n$ 而且满足以下条件，则称 $f$ 是范数：
- 非负性：对任意的 $x\in R^n$ ，都有 $f(x)\le 0$ ，且 $f (x) = 0$ 时，必有 $x = 0$ ；
- 齐次性：对任意的 $x\in R^n, t\in R$ ，都有 $f (t x) = ∣ t ∣ f (x)$ ；
- 满足三角不等式：对于任意的 $x,y\in R^n$ ，均有 $f(x+y)\le f(x) + f(y)$

用记号 $\Vert x\Vert$ 表示范数。

理解：

范数本质上是一个函数。
度量向量（或矩阵）的“长度”。
主要探讨向量范数。

2.2 几种常见的向量范数

$p$ 范数

$\Vert x\Vert_p = (|x_1|^p + \cdots + |x_n|^p)^{1/p}$

1范数

$\Vert x\Vert_1 = (|x_1| + \cdots + |x_n|)$

2范数

$\Vert x\Vert_2 = (|x_1|^2 + \cdots + |x_n|^2)^{1/2}$

无穷范数

$\Vert x\Vert_\infty = \max\{|x_1|, \cdots, |x_n|\}$

0范数（不是范数）：向量中非零元素个数。

2.3 向量范数可视化

2.4 矩阵的Frobenius范数

矩阵 $A\in R^{m\times n}$ 的 Frobenius 范数定义为
$\Vert A\Vert_F = (tr(A^T A))^{1/2} = \left(\sum_{i=1}^m \sum_{j=1}^n A_{ij}^2\right)^{1/2}$

3. 向量和矩阵的导数

3.1 求导规则

向量和标量导数：
$\left( \frac{\partial a}{\partial \boldsymbol x} \right)_i = \frac{\partial a}{\partial x_i}$
矩阵和标量导数：
$\left( \frac{\partial a}{\partial \boldsymbol X} \right)_{ij} = \frac{\partial a}{\partial X_{ij}}$
一阶导数（梯度）:
$(\nabla f(\boldsymbol x))_i = \frac{\partial f(\boldsymbol x)}{\partial x_i}$

$(\nabla^2 f(\boldsymbol x))_{ij} = \frac{\partial^2 f(\boldsymbol x)}{\partial x_i\partial x_j}$

向量和向量导数：

采用分子布局，即分子为列向量，分母为行向量。对分子每个元素，求导得一个行向量，最终组成一个矩阵。以 $f(x)\in R^2, x\in R^3$ 为例，两者均为列向量：

$\frac{\partial f}{\partial x} = \frac{\partial \left[\begin{matrix} f_1 \\ f_2 \end{matrix}\right] }{\partial \left[\begin{matrix} x_1, x_2,x_3 \end{matrix}\right]}= \left[ \begin{matrix} \frac{\partial f_1}{\partial x_1}, \frac{\partial f_1}{\partial x_2} , \frac{\partial f_1}{\partial x_3} \\ \frac{\partial f_2}{\partial x_1}, \frac{\partial f_2}{\partial x_2} , \frac{\partial f_2}{\partial x_3} \end{matrix} \right]$

看的时候，可以把分母看成一个整体。

复合求导

若 $x\rightarrow y \rightarrow f$ ，其中 $x\in R^n, y\in R, f\in R$ ，则
$\frac{\partial f}{\partial x} = \frac{\partial f}{\partial y} \frac{\partial y}{\partial x}$

3.2 例子1

$f(x) = a^T x = x^T a$ , $\nabla f(x) = a$
$f = tr(A^T B)$ , $\nabla_B f = A$ , $\nabla_A f = B$
$f = x^T x$
$x^T A x, \nabla_x f= (A+A^T)x, \nabla_x^2 f= 2 (A+ A^T)$

3.3 微分

${\rm d} (ABC) = {\rm d}A\cdot BC + A\cdot{\rm d}B\cdot C + AB\cdot {\rm d}C \\ {\rm d} tr(X) = tr({\rm d}X)$

逐元素函数的微分：
$d\sigma(x) = \sigma'(x)\odot dx \\ d\sigma(X) = \sigma'(X)\odot dX$
其中 $\sigma, \sigma'$ 为逐元素函数及对应导数， $\odot$ 代表逐元素相乘。

3.4 向量及矩阵求导

利用微分和迹求导。

回顾：标量对标量求导：对标量 $x\in R, f(x)\in R$ ，若 $d f = a d x$ ，则 $\frac{df}{dx} = a$ .
回顾：推广：标量对标量求导：全微分表达式 $f(x,y) = x^2 + xy + y^2$ ， $d f = 2 x d x + y d x + x d y + 2 y d y = (2 x + y) d x + (x + 2 y) d y$ ，则 $\frac{\partial f}{\partial x} = (2x + y), \frac{\partial f}{\partial y} = (x + 2y)$ .
标量对向量求导：对向量 $x\in R^n, f(x)\in R$ ，如果 $df = a^T dx$ ，则 $\frac{df}{dx} = a$ 。
推广：标量对向量求导：对向量 $x,y\in R^n, f(x), f(y)\in R$ ，如果 $df = a^T dx + b^T dy$ ，则 $\frac{\partial f}{\partial x} = a, \frac{\partial f}{\partial y}=b$ 。
标量对矩阵求导：对矩阵 $X,Y\in R^{m\times n}, f(X), f(Y)\in R$ ，如果 $df = tr(A^T dX) + tr(B^T dY)$ ，则 $\frac{\partial f}{\partial X}=A, \frac{\partial f}{\partial Y}=B$ 。
推广：标量对矩阵求导：对矩阵 $X,Y\in R^{m\times n}, f(X), f(Y)\in R$ ，如果 $df = tr(A^T dX) + tr(B^T dY)$ ，则 $\frac{\partial f}{\partial X}=A, \frac{\partial f}{\partial Y}=B$ 。

3.5 矩阵求导在机器学习算法中的应用

$\Vert Ax - b\Vert^2$
$\begin{aligned} f(x) &= \Vert Ax - b\Vert^2 \\ &= (Ax-b)^T (Ax-b) \end{aligned}$

$dx)^T(Ax - b) + (Ax-b)^T A dx = tr((2A^T (Ax -b))^T dx) \\ \frac{df(x)}{dx} = 2A^T (Ax-b)$

$\Vert A\Vert_F^2$
$\Vert A\Vert_F^2 = tr(A^T A)$

$\begin{aligned} df(A) &= dtr(A^T A)\\ &= tr(dA^T A) + tr(A^T dA) \\ &= tr(A^T dA) + tr(A^T dA) \\ &= tr(2A^T dA) \end{aligned}$
则 $\frac{df(A)}{dA} = 2A$ .

$-tr(P^T C P) + \nu (P^T P - I)$ ，其中 $P$ 为正交矩阵， $C$ 为实对称矩阵, $\nu\in R$ 为常数。
$\frac{1}{2} \Vert w \Vert^2 + \lambda [y(w^T x + b) -1]$ ，其中 $y,b,\lambda \in R$ 为常数。

4. 编程基础

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats
import sklearn


x = np.array([1,2,3])
y = np.array([1,1,1])
A = np.random.randint(0, 9, (3,3))
B = np.random.randint(0, 9, (3,3))

np.trace(A)
np.linalg.norm(x, ord=np.inf)
np.linalg.norm(A, ord='fro')

import numpy as np
import matplotlib.pyplot as plt

# 1/2 范数绘制
x = np.linspace(-1, 1, 199) # 注意点数为奇数，否则尖点出不来
y05 = (1 - abs(x)**(1/2) )**2

plt.figure(figsize=(4,4))
plt.plot(x, y05, 'r', x, -y05, 'r')
plt.xlim([-1.2, 1.2]); plt.ylim([-1.2, 1.2])
plt.axis('square')
plt.axis('off')
plt.show()

5. 机器学习框架

准确地讲，机器学习有很多类别，其中一个主要的框架如下：

以波士顿房价预测为例，使用线性回归模型：

6. 机器学习中的最优化问题

6.1 建立数学模型

根据数据或者现实物理关系，可以建立各种各样的数学模型。

部分问题没有约束条件，称为无约束问题，例如：
- 线性回归
  
  $\mathop{\rm minimize}\limits_w \quad \Vert y - Xw\Vert_2^2$
- 岭回归
  $\mathop{\rm minimize}\limits_w \quad \Vert y - Xw\Vert_2^2 + \lambda \Vert w\Vert_2^2\\$
- LASSO算法
  $\mathop{\rm minimize}\limits_w \quad \Vert y - Xw\Vert_2^2 + \lambda \Vert w\Vert_1\\$
- Logistic回归
- BP前馈神经网络
部分问题有等式约束或不等式约束，称为有约束问题，例如：
- 线性判别分析（LDA）
  $\begin{aligned} \mathop{minimize}\limits_w &\quad -w^T S_b w \\ {\rm subject\ to} &\quad w^T S_w w = c \end{aligned}$
- 支持向量机（SVM）
  $\begin{aligned} \mathop{\rm minimize}\limits_w &\quad \frac{1}{2}\Vert w\Vert^2 \\ {\rm subject\ to} &\quad y_i(w^T x_i + b) \le 1, \quad i=1,...,m \end{aligned}$
- 主成分分析（PCA）
  $\begin{aligned} \mathop{\rm minimize}\limits_P &\quad \sum_{i=1}^m \Vert PP^T x_i - x_i\Vert_2^2 \\ {\rm subject\ to} &\quad P^TP = I \end{aligned}$

6.2 求解优化变量

机器学习的任务：

高端说法：从数据中获取知识，赋予机器智慧（高端说法）。
接地气说法：通过调整参数（权重），使目标损失函数最小化。

求解参数方法：

直接求解。对于线性回归和岭回归，可以直接求出优化变量的表达式；
迭代法。对于一些凸函数，直接求出优化变量表达式很困难，或者计算过于复杂，通常会采取迭代方法求解，例如 梯度下降法、牛顿法，以及后面会学习的共轭梯度法等等。

版权申明：本教程版权归创作人所有，未经许可，谢绝转载！

交流讨论QQ群：784117704

部分视频观看地址：b站搜索“火力教育”

课件下载地址：QQ群文件（有最新更新） or 百度网盘PDF课件及代码

链接：https://pan.baidu.com/s/1lc8c7yDc30KY1L_ehJAfDg
提取码：u3ls

有硬币就是土豪

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
第1章数学基础和机器学习问题（范数+矩阵迹+矩阵求导+机器学习框架）

俯视机器学习第1章数学基础和机器学习问题1. 向量及矩阵本课程讨论的向量默认都是列向量。向量和矩阵都只讨论实数情况。1.1 向量内积对向量 x,y∈Rnx,y\in R^nx,y∈Rn，其内积<x,y>=xTy=∑i=1nxiyi<x,y>=x^Ty = \sum_{i=1}^n x_i y_i<x,y>=xTy=i=1∑nxiyi内积满足交换律，即 xTy=yTxx^T y = y^T xxTy=yTx .1.2 矩阵的迹对方阵 ...
复制链接

扫一扫