机器学习&深度学习常用算法推导

最新推荐文章于 2022-02-21 14:53:21 发布

小刀丶

最新推荐文章于 2022-02-21 14:53:21 发布

阅读量381

点赞数

分类专栏：人工智能数学基础文章标签：神经网络机器学习深度学习

本文链接：https://blog.csdn.net/qq_34361099/article/details/118359216

版权

人工智能同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

数学基础

3 篇文章 7 订阅

订阅专栏

本文详细介绍了机器学习和深度学习的基础知识及常用算法。从向量、信息量和熵开始，逐步深入到线性回归、逻辑回归和SVM的推导。在深度学习部分，探讨了通用的概念和公式，如最小二乘法、极大似然估计以及超平面的相关计算。整个文章旨在帮助读者理解并掌握这些关键算法的核心思想。

摘要由CSDN通过智能技术生成

基础

符号	含义
$C$	特征通道数（此处仅代表含义，不同地方的 $C$ 数值可能不同）
$N$	样本数

以下所有“向量”代表列向量
每一个样本点 $x$ 都是一个向量，多个样本组成矩阵 $X=[x_0, x_1,...,x_n]$

向量

向量的坐标代表向量在指定基下的投影： $a=[e_1,e_2,e_3]^T[a_1,a_2,a_3]$
向量点积/内积/数量积： $=a^Tb=\sum^C_ia_ib_i=|a||b|cos\theta$ ， $\theta$ 为 $a, b$ 夹角
- 内积代表一个向量在另一个向量上的投影
向量 $a$ 的反对称矩阵 $A$ ： $a=\left[ \begin{array}{c} a_1 \\ a_2 \\ a_3\end{array}\right],A=a^\wedge=\left[ \begin{array}{c} 0 & -a_3 & a_2 \\ a_3 & 0 & -a_1 \\ -a_2 & a_1 & 0 \end{array}\right]$
- 反对称矩阵满足： $A^T=-A$
向量外积：
- 外积是一个垂直于俩向量的向量，大小为 $∣ a ∣ ∣ b ∣ s i n (a, b)$

信息量

在这里插入图片描述

横坐标为概率 $p$ ，则对应纵坐标信息量 $i = - l o g p$ ，反映事件让人惊讶的程度（不确定性）

熵

某个事件对应的信息量的期望

传统算法

线性回归

寻找一个权重 $w$ 和偏置 $b$ ，使得 $w^TX+b$ 最接近目标值 $Y$ 。相当于拟合一条直线（或一个超平面），让所有样本在直线上的取值与真实值最接近。举个例子，二维情况下， $w$ 相当于斜率 $k∈\mathbb{R}$ ， $b$ 相当于截距。

输入：样本矩阵 $X∈\mathbb{R}^{C×N}$ ，目标值(ground truth) $Y_{gt}∈\mathbb{R}^{1×N}$
输出：权重 $w∈\mathbb{R}^{C×1}$ ，偏置 $b∈\mathbb{R}$

推导

$Y=w^TX+b∈\mathbb{R}^{1×N}$
通过齐次形式把 $b$ 整合进 $w$ ， $w=\left[ \begin{array}{c} w \\ b\end{array}\right]∈\mathbb{R}^{(C+1)×1},X=\left[ \begin{array}{c} X \\ 1\end{array}\right]∈\mathbb{R}^{(C+1)×N}$
$Y=w^TX∈\mathbb{R}^{1×N}$
这里可通过最小二乘获得最优参数的解析解
$Loss=\sum(y_{gt}-y)^2=(Y_{gt}-w^TX)(Y_{gt}-w^TX)^T∈\mathbb{R}^{+}$
$\frac{\partial Loss}{\partial w}=2(w^TX-Y_{gt})X^T∈\mathbb{R}^{(C+1)×1}$
令偏导为 $0$
$2(w^TX-Y_{gt})X^T=0$
$w^TXX^T=Y_{gt}X^T$
$w=(Y_{gt}X^T(XX^T)^{-1})^T$
$w=(XX^T)^{-1}XY_{gt}^T$

逻辑回归

逻辑回归是分类算法，相当于全连接加 $s i g m o i d$ 激活的单层神经网络。

输入：样本矩阵 $X∈\mathbb{R}^{C×N}$ ，每个样本对应的类别
输出：权重 $w∈\mathbb{R}^{C×1}$ ，偏置 $b∈\mathbb{R}$

推导

给出样本矩阵 $X∈\mathbb{R}^{C×N}$
过一层全连接+ $s i g m o i d$ 得到输出： $Y=sigmoid(w^TX+b)∈(0,1)^{1×N}$
- $sigmoid(x)=\frac{1}{1+e^{-x}}$
将 $Y$ 作为属于正样本的概率,则 $1 - Y$ 为负样本概率
利用极大似然估计（MLE）构造目标函数，使得所有样本对应类别出现的联合概率最大
- $\underset {w,b}{\operatorname {arg\,max} }(log\prod_i^N P_i),P_i=\begin{cases}Y_i & X_i是正样本\\1-Y_i &X_i是负样本\end{cases}$
等价于最小化信息量之和： $Loss=\sum_i^N-logP_i$

SVM

SVM希望找到一个超平面用于划分样本，使得各类别距离超平面最近的样本点 $x_i$ 距离超平面最远。

输入：样本矩阵 $X∈\mathbb{R}^{C×N}$ ，每个样本对应的类别
输出：超平面权重 $w∈\mathbb{R}^{C×1}$ ，超平面偏置 $b∈\mathbb{R}$

定理

超平面： $w^Tx+b=0$
超平面法向量： $w$
点到超平面距离： $d=\frac{|w^Tx+b|}{||w||}$
平行超平面间距离： $d=\frac{|b_1-b_2|}{||w||}$

原理

给出样本矩阵 $X∈\mathbb{R}^{C×N}$
求所有样本 $X$ 到超平面的距离 $D=\frac{|w^TX+b|}{||w||}∈\mathbb{R}^{1×N}$
找到 $n$ 个样本中距离超平面最近的点 $x_1,x_2,...,x_n$
SVM要求正负样本中距离超平面最近的样本到超平面的距离最大，即 $max_{w,b}\frac{|w^Tx_i+b|}{||w||},0<i≤n$
令 $w^Tx_i+b|=1$ ，优化目标变为 $max_{w,b}\frac{1}{||w||},s.t.|w^Tx_i+b|>=1,0<i≤n$
对于二分类问题,等效于合页损失加正则项： $1-y(w^Tx+b))+\lambda||w||^2,y∈±1$
对于多分类问题，相当于做多个二分类

深度学习

通用概念/公式

最小二乘法

构造MSE损失，令导数为0求极值

极大似然估计

选取候选参数中使得所有样本被正确分类的概率最大的参数

超平面

二维下直线表达式： $a x + b y + c = 0$
多维超平面表达式： $a x + b y + c z + . . . + d = 0$
写作矩阵形式： $w^Tx+b=0$
- $x∈\mathbb{R}^{C×1}$ 代表超平面上的任意样本点
- 超平面权重 $w∈\mathbb{R}^{C×1}$ 同二维下的 $a,b]^T$
- 超平面偏置 $b∈\mathbb{R}$ 同二维e下的 $c$

超平面法向量

给出超平面： $w^Tx+b=0$
超平面的法向量垂直于该超平面上的任意向量
设超平面上任意俩点 $x_1,x_2$
$w^Tx_1+b=0, w^Tx_2+b=0$
$w^T(x_1-x_2)=0$
$w$ 垂直于超平面上任意向量

点到超平面距离

给出超平面： $w^Tx+b=0$ ，超平面上任意一点 $x$ ，任意一点 $p$
超平面法向量： $w$
$p$ 到超平面的距离 $d∈\mathbb{R}$ 为向量 $p - x$ 对超平面单位法向量的投影长度（即点积的绝对值）
单位法向量： $\frac{w}{||w||}$
$d=|(\frac{w}{||w||})^T(p-x)|$
$d=\frac{|w^T(p-x)|}{||w||}$
$d=\frac{|w^Tp-w^Tx|}{||w||}$
$d=\frac{|w^Tp+b|}{||w||}$
则对任意一点 $x$ ，到超平面距离为 $d=\frac{|w^Tx+b|}{||w||}∈\mathbb{R}^+$

平行超平面间距离

给出超平面： $w^Tx_1+b_1=0$ ，和与其平行的超平面 $w^Tx_2+b_2=0$
超平面法向量： $w$
超平面间的距离 $d∈\mathbb{R}$ 为向量 $x_1-x_2$ 对超平面单位法向量的投影长度（即点积的绝对值），此处 $x_1,x_2$ 分别为俩个超平面上的任意一点，俩个超平面法向量相同
单位法向量： $\frac{w}{||w||}$
$d=|(\frac{w}{||w||})^T(x_1-x_2)|$
$d=\frac{|w^T(x_1-x_2)|}{||w||}$
$d=\frac{|w^Tx_1-w^Tx_2|}{||w||}$
$d=\frac{|-b_1+b_2|}{||w||}$
$d=\frac{|b_1-b_2|}{||w||}$
平行超平面间距离为 $d=\frac{|b_1-b_2|}{||w||}∈\mathbb{R}^+$

小刀丶

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习&深度学习常用算法推导

基础以下所有“向量”代表列向量每一个样本点xxx都是一个向量，多个样本组成矩阵X=[x0,x1,...,xn]X=[x_0, x_1,...,x_n]X=[x0,x1,...,xn]传统算法SVM符号含义C特征通道数N样本数输入：样本矩阵X∈RC×NX∈\mathbb{R}^{C×N}X∈RC×N输出：超平面权重w∈RC×1w∈\mathbb{R}^{C×1}w∈RC×1，超平面偏置b∈RC×1b∈\mathbb{R}^{C×1}b∈RC×1定
复制链接

扫一扫