1-03 机器学习的数学基础_机器学习数学基础-CSDN博客

本文链接：https://blog.csdn.net/Jamie_Shu/article/details/107655863

本文介绍了机器学习的数学基础，包括向量的概念，线性变换，矩阵的加减、乘法、逆矩阵、转置和对称矩阵，以及导数、偏导数和梯度在函数变化中的作用。此外，还讲解了概率学基础，如事件运算定律、概率定义、独立性和正态分布。最后讨论了熵和KL散度在信息理论中的应用。

摘要由CSDN通过智能技术生成

1 向量

具有大小和方向的量
矢量

与向量相对的是数量/标量，只有大小、无方向

2 线性变换

T(v+w) = T(v) + T(w)
T(cv) = cT(v)

3. 矩阵

3.1 矩阵加减

3.2 矩阵乘法

3.3 单位矩阵

单位矩阵是一个n×n矩阵，从左到右的对角线上的元素是1，其余元素都为0。
如果A是n×n矩阵，I是单位矩阵，则AI= A, IA = A
单位矩阵在矩阵乘法中的作用相当于数字1

3.4 逆矩阵

矩阵A的逆矩阵记作A-1， A A-1=A-1A= I，I是单位矩阵

3.5 奇异矩阵

当一个矩阵没有逆矩阵的时候，称该矩阵为奇异矩阵。
<=>当且仅当一个矩阵的行列式为零时，该矩阵是奇异矩阵。
当ad-bc=0时，|A|没有定义，A-1不存在，A是奇异矩阵。

3.6 矩阵的转置

在这里插入图片描述

3.7 对称矩阵

如果一个矩阵转置后等于原矩阵，那么这个矩阵称为对称矩阵。
一个矩阵转置和这个矩阵的乘积就是一个对称矩阵

[注] 怎么能得到一个对称矩阵？

一个矩阵乘该矩阵的转置

3.8 欧式变换

由两部分组成：旋转 & 平移

[例]
目标追踪，如身体某个部位(胳膊)的运动、旋转

4. 导数&偏导数

导数（微分）：是代表函数（曲线）的斜率，是描述函数（曲线）变化快慢的量，同时曲
线的极大值点也可以使用导数来判断，即极大值点的导数为0，此时斜率为零。
偏导数：是指在多元函数的情况下，对其每个变量进行求导，求导时，把其他变量看做常
量进行处理，物理意义就是查看这一个变量在其他情况不变的情况下对函数的影响程度。

在这里插入图片描述

5. 梯度

5.1 定义

梯度的本意是一个向量（矢量），表示某一函数在 该点处 的 方向导数 沿着该方向取得最大值，

即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）

5.2 梯度下降法

梯度下降法：是一种寻找函数极小值的方法。

该方法 最普通的做法 是：
- 在已知参数当前值的情况下，按当前点对应的梯度向量的反方向，并按事先给定好的步长大小，对参数进行调整。
- 按如上方法对参数做出多次调整之后，函数就会逼近一个极小值。
梯度下降法存在的问题：
1. 参数调整缓慢 - 步长
2. 收敛于局部最小值 - 多个点进行梯度下降

6. 概率学基础

Machine Learning 与 Traditional statistical analyses 的一些区别，主要在关注主体和验证性作区分。

前者不关心模型的复杂度有多么的高，仅仅要求模型有良好的泛化性以及准确性。
而后者在模型本身有一定的要求——不可过于复杂。

6.1 事件与关系运算

在这里插入图片描述

6.2 事件运算定律

在这里插入图片描述

6.3 概率的基本概念

概率：事件发生的可能性大小的度量，其严格定义如下：

概率P(g)为定义在事件集合上的满足下面2个条件的函数：
• 对任何事件A，P(A) >= 0
• 对必然事件B，P(B) = 1

概率的基本性质:
古典型概率: 实验的所有结果只有有限个，且每个结果发生的可能性相同，其概率计算公式：

6.4 独立性

事件A与B独立的条件，AB同时发生的概率 和 A单独发生 以及 B单独发生 的概率是一样的。

6.5 离散

离散就是不连续。

人眼看到的图像都是连续的；但经过相机拍摄出的照片都是离散的（由像素组成）。

6.6 数学期望、方差、标差差

在这里插入图片描述

该三指标是机器学习中重要的评价标准：评价一个输出值是否正确
如MSE：机器自动评价

[注] 有了方差，为什么还要标准差？
标准差和均值的 量纲（单位） 是一致的，在描述一个波动范围时标准差比方差更方便。

比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm，方差就无法做到这点。
再举个例子，从正态分布中抽出的一个样本落在[μ-3σ, μ+3σ]这个范围内的概率是99.7%，也可以称为“正负3个标准差”。如果没有标准差这个概念，我们使用方差来描述这个范围就略微绕了一点。万一这个分布是有实际背景的，这个范围描述还要加上一个单位，这时候为了方便，人们就自然而然地将这个量单独提取出来了。