深度学习笔记01——数学知识

最新推荐文章于 2024-06-11 23:34:16 发布

知止233

最新推荐文章于 2024-06-11 23:34:16 发布

阅读量172

点赞数

文章标签：机器学习概率论线性代数

本文链接：https://blog.csdn.net/qq_42115122/article/details/103980436

版权

一线代内容

1 标量、向量、矩阵、张量之间的联系

1.1 张量

可以理解为矩阵的升级版，矩阵是二维的，张量可以是无限维。可以说标量就是0阶张量、向量就是1阶张量、矩阵就是2阶张量。

1.2 向量和矩阵的范数归纳

1.2.1 向量的范数

向量的L1范数
$\Vert\vec{x}\Vert_1=\sum_{i=1}^N\vert{x_i}\vert$
向量的L2范数
$\Vert\vec{x}\Vert_2=\sqrt{\sum_{i=1}^N{\vert{x_i}\vert}^2}$
这两个为最常见的范数形式，还有向量的负无穷范数、正无穷范数、p范数。
范数简介

1.2.2 矩阵的范数

矩阵的范数定义为
$\Vert{A}\Vert_p :=\sup_{x\neq 0}\frac{\Vert{Ax}\Vert_p}{\Vert{x}\Vert_p}$
当向量取不同范数时, 相应得到了不同的矩阵范数。
矩阵的1-范数（列模）
矩阵的每一列上的元素绝对值先求和，再从中取个最大的
$\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|$
总结就是列和最大。
矩阵的2-范数（谱模）
矩阵 $A^TA$ 的最大特征值开平方根
$\Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)}$
其中， $\lambda_{max}(A^T A)$ 为 $A^T A$ 的特征值绝对值的最大值。总结就是 $A^T A$ 最大特征根开平方根。矩阵还有无穷范数、核范数、L0范数、L1范数、F范数、L21范数。

1.3 判断矩阵为正定

定义：设 $M$ 是n阶方阵，如果对任何非零向量z，都有 $z^TMz> 0$ ，其中 $z^T$ 表示 $z$ 的转置，就称 $M$ 为正定矩阵。
性质：
（1）正定矩阵的行列式恒为正；
（2）实对称矩阵A正定当且仅当A与单位矩阵合同；
（3）若A是正定矩阵，则A的逆矩阵也是正定矩阵；
（4）两个正定矩阵的和是正定矩阵；
（5）正实数与正定矩阵的乘积是正定矩阵。

2 特征值和特征向量

特征值分解可以得到特征值和特征向量。特征值表示的这个特征有多重要，而特征向量表示这个特征是什么。
特征向量和特征值的解释
$A\nu = \lambda \nu$
$\lambda$ 为特征向量 $\vec{v}$ 对应的特征值。

二概率论内容

1 机器学习为什么要使用概率论

机器学习除了处理不确定的变量，也要处理随机变量。不确定和随机性来自多个方面，概率论来量化不确定性。

2 概率分布

2.1 正态分布

从概率论中，我们掌握很多概率分布，如高斯分布、布尔分布、指数分布、拉普拉斯分布等等，但正态分布无疑是最有特殊性的一个。
那么我们什么时候会用正太分布呢？在机器学习中，我们缺乏实数上分布的经验知识，不知道采取何种形式时，默认选择正态分布总是不会错的。理由如下：

中心极限定理告诉我们，很多独立的随机变量近似服从正态分布，现实中很多复杂的系统都可以被建模成正太分布的噪声，即使该系统可以被结构化分解。
正态分布是具有相同方差的所有概率分布，不确定性最大的分布，换句话说正态分布是对模型加入先验知识最少的分布。

2.2 正态分布的推广

正太分布可以推广到 $R^n$ 空间，此时称为多维正态分布
$N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)$
多维正态分布

知止233

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习笔记01——数学知识

一线代、概率论内容1 标量、向量、矩阵、张量之间的联系1.1 张量可以理解为矩阵的升级版，矩阵是二维的，张量可以是无限维。可以说标量就是0阶张量、向量就是1阶张量、矩阵就是2阶张量。1.2 向量和矩阵的范数归纳1.2.1 向量的范数向量的L1范数∥x⃗∥1=∑i=1N∣xi∣\Vert\vec{x}\Vert_1=\sum_{i=1}^N\vert{x_i}\vert∥x∥1...
复制链接

扫一扫