机器学习的数学基础矩阵论与概率论

最新推荐文章于 2021-12-20 13:18:58 发布

Hust_Shine

最新推荐文章于 2021-12-20 13:18:58 发布

阅读量3.2k

点赞数 2

分类专栏：机器学习算法文章标签：机器学习矩阵论

本文链接：https://blog.csdn.net/efei7968/article/details/88723372

版权

本文深入探讨机器学习的数学基础，详细阐述矩阵论与概率论的概念及其在机器学习中的应用。从标量、向量、矩阵、张量的联系到矩阵的范数、特征值分解、条件概率、独立性等核心概念，揭示了这些基础知识在机器学习模型中的重要性。

摘要由CSDN通过智能技术生成

文章目录

机器学习的数学基础

机器学习的数学基础

1.1 标量、向量、矩阵、张量之间的联系

标量（scalar)
一个标量表示一个单独的数，它不同于线性代数中研究的其他大部分对象（通常是多个数的数组）。我们用斜体表示标量。标量通常被赋予小写的变量名称。

向量（vector）
一个向量表示一组有序排列的数。通过次序中的索引，我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称，比如xx。向量中的元素可以通过带脚标的斜体表示。向量 $X$ 的第一个元素是 $X_1$ ，第二个元素是 $X_2$ ，以此类推。我们也会注明存储在向量中的元素的类型（实数、虚数等）。

矩阵（matrix）
矩阵是具有相同特征和纬度的对象的集合，表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行，一个特征表示为矩阵中的一列，每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称，比如 $A$ 。

张量（tensor）
在某些情况下，我们会讨论坐标超过两维的数组。一般地，一个数组中的元素分布在若干维坐标的规则网格中，我们将其称之为张量。使用 $A$ 来表示张量“A”。张量 $A$ 中坐标为 $(i, j, k)$ 的元素记作 $A_{(i,j,k)}$ 。

四者之间关系

标量是0阶张量，向量是一阶张量。举例：
标量就是知道棍子的长度，但是你不会知道棍子指向哪儿。
向量就是不但知道棍子的长度，还知道棍子指向前面还是后面。
张量就是不但知道棍子的长度，也知道棍子指向前面还是后面，还能知道这棍子又向上/下和左/右偏转了多少。

1.2 张量与矩阵的区别？

从代数角度讲，矩阵它是向量的推广。向量可以看成一维的“表格”（即分量按照顺序排成一排），矩阵是二维的“表格”（分量按照纵横位置排列），那么 $n$ 阶张量就是所谓的 $n$ 维的“表格”。张量的严格定义是利用线性映射来描述。
从几何角度讲，矩阵是一个真正的几何量，也就是说，它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
张量可以用3×3矩阵形式来表达。
表示标量的数和表示矢量的三维数组也可分别看作1×1，1×3的矩阵。

1.3 矩阵和向量相乘结果

一个 $m$ 行 $n$ 列的矩阵和 $n$ 行向量相乘，最后得到就是一个 $m$ 行的向量。运算法则就是矩阵中的每一行数据看成一个行向量与该向量作点乘。

1.4 向量和矩阵的范数归纳

向量的范数
定义一个向量为： $\vec{a}=[-5, 6, 8, -10]$ 。任意一组向量设为 $\vec{x}=(x_1,x_2,...,x_N)$ 。其不同范数求解如下：

向量的1范数：向量的各个元素的绝对值之和，上述向量 $\vec{a}$ 的1范数结果就是：29。

$\Vert\vec{x}\Vert_1=\sum_{i=1}^N\vert{x_i}\vert$

向量的2范数：向量的每个元素的平方和再开平方根，上述 $\vec{a}$ 的2范数结果就是：15。

$\Vert\vec{x}\Vert_2=\sqrt{\sum_{i=1}^N{\vert{x_i}\vert}^2}$

向量的负无穷范数：向量的所有元素的绝对值中最小的：上述向量 $\vec{a}$ 的负无穷范数结果就是：5。

$\Vert\vec{x}\Vert_{-\infty}=\min{|{x_i}|}$

向量的正无穷范数：向量的所有元素的绝对值中最大的：上述向量 $\vec{a}$ 的负无穷范数结果就是：10。

$\Vert\vec{x}\Vert_{+\infty}=\max{|{x_i}|}$

向量的p范数：向量元素绝对值的p次方和的1/p次幂。

$L_p=\Vert\vec{x}\Vert_p=\sqrt[p]{\sum_{i=1}^{N}|{x_i}|^p}$

矩阵的范数

定义一个矩阵 $A = [- 1, 2, - 3; 4, - 6, 6]$ 。任意矩阵定义为： $A_{m\times n}$ ，其元素为 $a_{ij}$ 。

矩阵的范数定义为

$\Vert{A}\Vert_p :=\sup_{x\neq 0}\frac{\Vert{Ax}\Vert_p}{\Vert{x}\Vert_p}$

当向量取不同范数时, 相应得到了不同的矩阵范数。

矩阵的1范数（列范数）：矩阵的每一列上的元素绝对值先求和，再从中取个最大的,（列和最大），上述矩阵 $A$ 的1范数先得到 $[5, 8, 9]$ ，再取最大的最终结果就是：9。

$\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|$

矩阵的2范数：矩阵 $A^TA$ 的最大特征值开平方根，上述矩阵 $A$ 的2范数得到的最终结果是：10.0623。

$\Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)}$

最低0.47元/天解锁文章

Hust_Shine

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
机器学习的数学基础矩阵论与概率论

文章目录机器学习的数学基础1.1 标量、向量、矩阵、张量之间的联系1.2 张量与矩阵的区别？1.3 矩阵和向量相乘结果1.4 向量和矩阵的范数归纳1.5 如何判断一个矩阵为正定？1.6 导数偏导计算1.7 导数和偏导数有什么区别？1.8 特征值分解与特征向量1.9 奇异值与特征值有什么关系?1.10 机器学习为什么要使用概率？1.11 变量与随机变量有什么区别？1.12 常见概率分布1.13 举例...
复制链接

扫一扫