1-03 机器学习的数学基础
目录
- 向量
- 线性变换
- 矩阵
- 导数&偏导数
- 梯度
- 概率学基础
- 熵
- kl散度
1 向量
- 具有 大小 和 方向 的量
- 矢量
与向量相对的是数量/标量,只有大小、无方向
2 线性变换
T(v+w) = T(v) + T(w)
T(cv) = cT(v)
3. 矩阵
3.1 矩阵加减
3.2 矩阵乘法
3.3 单位矩阵
-
单位矩阵是一个n×n矩阵,从左到右的对角线上的元素是1,其余元素都为0。
-
如果A是n×n矩阵,I是单位矩阵,则AI= A, IA = A
-
单位矩阵在矩阵乘法中的作用相当于数字1
3.4 逆矩阵
- 矩阵A的逆矩阵记作A-1, A A-1=A-1A= I,I是单位矩阵
3.5 奇异矩阵
- 当一个矩阵没有逆矩阵的时候,称该矩阵为奇异矩阵。
<=>
当且仅当一个矩阵的行列式为零时,该矩阵是奇异矩阵。 - 当ad-bc=0时,|A|没有定义,A-1不存在,A是奇异矩阵。
3.6 矩阵的转置
3.7 对称矩阵
- 如果一个矩阵转置后等于原矩阵,那么这个矩阵称为对称矩阵。
- 一个矩阵转置和这个矩阵的乘积就是一个对称矩阵
[注] 怎么能得到一个对称矩阵?
- 一个矩阵乘该矩阵的转置
3.8 欧式变换
- 由两部分组成: 旋转 & 平移
[例]
目标追踪,如身体某个部位(胳膊)的运动、旋转
4. 导数&偏导数
导数(微分):是代表函数(曲线)的斜率,是描述函数(曲线)变化快慢的量,同时曲
线的极大值点也可以使用导数来判断,即极大值点的导数为0,此时斜率为零。
偏导数:是指在多元函数的情况下,对其每个变量进行求导,求导时,把其他变量看做常
量进行处理,物理意义就是查看这一个变量在其他情况不变的情况下对函数的影响程度。
5. 梯度
5.1 定义
梯度的本意是一个向量(矢量),表示某一函数在 该点处 的 方向导数 沿着该方向取得最大值,
- 即函数在该点处 沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)
5.2 梯度下降法
梯度下降法:是一种寻找函数极小值的方法。
- 该方法 最普通的做法 是:
- 在已知参数当前值的情况下,按当前点对应的梯度向量的反方向,并按事先给定好的步长大小,对参数进行调整。
- 按如上方法对参数做出多次调整之后,函数就会逼近一个极小值。
- 梯度下降法存在的问题:
- 参数调整缓慢 - 步长
- 收敛于局部最小值 - 多个点进行梯度下降
6. 概率学基础
Machine Learning
与 Traditional statistical analyses
的一些区别,主要在关注主体和验证性作区分。
- 前者不关心模型的复杂度有多么的高,仅仅要求模型有良好的泛化性以及准确性。
- 而后者在模型本身有一定的要求——不可过于复杂。
6.1 事件与关系运算
6.2 事件运算定律
6.3 概率的基本概念
- 概率:事件发生的可能性大小的度量,其严格定义如下:
- 概率P(g)为定义在事件集合上的满足下面2个条件的函数:
• 对任何事件A,P(A) >= 0
• 对必然事件B,P(B) = 1
-
概率的基本性质:
-
古典型概率: 实验的所有结果只有有限个,且每个结果发生的可能性相同,其概率计算公式:
6.4 独立性
事件A与B独立的条件,AB同时发生的概率 和 A单独发生 以及 B单独发生 的概率是一样的。
6.5 离散
离散就是不连续。
- 人眼看到的图像都是连续的;但经过相机拍摄出的照片都是离散的(由像素组成)。
6.6 数学期望、方差、标差差
该三指标是机器学习中重要的 评价标准 :评价一个输出值是否正确
如MSE:机器自动评价
[注] 有了方差,为什么还要标准差?
标准差和均值的 量纲(单位) 是一致的,在描述一个波动范围时标准差比方差更方便。
- 比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点。
- 再举个例子,从正态分布中抽出的一个样本落在[μ-3σ, μ+3σ]这个范围内的概率是99.7%,也可以称为“正负3个标准差”。如果没有标准差这个概念,我们使用方差来描述这个范围就略微绕了一点。万一这个分布是有实际背景的,这个范围描述还要加上一个单位,这时候为了方便,人们就自然而然地将这个量单独提取出来了。
6.7 正态分布(高斯分布)
- 正态分布:若随机变量X服从一个数学期望为μ、方差为σ^2 的正态分布,记为N(μ,σ^2)。
- μ决定了其位置(中心线),
- 其标准差σ决定了分布的幅度(胖瘦)。
- 标准正态分布:当μ = 0,σ = 1时的正态分布是标准正态分布
7. 熵 Entropy
7.1 信息量
信息量是指信息多少的度量。
7.2 熵
- 系统越有序,熵值越低;系统越混乱或者分散,熵值越高。
- 若不确定性越大,则信息量越大,熵越大
- 若不确定性越小,则信息量越小,熵越小
同样一句话的不确定性不同
[例]
如有30支球队,当每支球队的夺冠概率相等时,熵最大(此时,夺冠这件事最不确定,很难预测出谁夺冠);但凡有队伍的夺冠概率高一些,则不确定性就小一些。
- 联合熵
- 条件熵
- 相对熵
- 交叉熵
8. kl散度(相对熵)
- KL 散度是一种衡量两个概率分布的匹配程度的指标,两个分布差异越大,KL散度越大。
- KL散度的用途:比较两个概率分布的接近程度。
- 计算数据源分布与近似分布的对数差的分布值
- 计算损失了多少信息量
p(xi)
是目标分布q(xi)
是去匹配分布- 若完全相同则为0
KL散度非对称:p、q交换位置,则结果可能不同
[例]
优化目标:尽可能少的损失信息