机器学习-常用数学基础(一)

机器学习的数学基础 PART ONE

1. 标量 (Scalar):

        单个数据,如1,2,3,4。

2. 向量 (Vector):

        向量是一个有方向有大小的量,通常表示为由数值排列成的一维数组。

        一维数组,将多个标量按照一定的顺序排列成一行或一列,如:[1,2,3,4]。

        向量通常使用小写字母加粗体来表示,如x, a, b, v, u

        2.1 向量的长度

               向量的长度叫模长,模长是一个映射,它把一个n维的向量变成了实数。

               “模”字本身有标准、规范的意思。比如模型、模具这种词,就是一种标准的容器。而“范”字也有模子的意思,所以这两个字的选取都在表达这个数学概念,在测量一种东西。有个词叫“模范”,之前叫模长,现在叫范数。

3. 矩阵 (Matrix):

        二维数组,成行成列的一堆数据。矩阵通常使用大写、斜体、粗体表示,如A, B, V, X

        从数据的角度来看,矩阵可以表示为一个包含行和列的数据表,每个单元格中的数值可以代表某种测量结果、观察值或特征。比如鸢尾花iris的样本集中,每一行表示一个样本,150行表示有150个鸢尾花的样本;每一列表示一个特征,4列表示鸢尾花有4个特征,分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。

        从统计学的角度来看,矩阵可以用于描述多个变量之间的关系。例如,协方差矩阵用于衡量变量之间的相关性,而相关矩阵则提供了变量之间的线性相关性度量。使用这些矩阵来推断模式、关联和依赖性,以及进行数据分析和建模。

        从线性代数的角度来看,矩阵可以用于表示线性方程组的系数矩阵。通过矩阵运算,例如矩阵乘法、求逆和特征值分解,可以解决线性方程组、求解特征向量和特征值等问题。 线性代数中的矩阵理论提供了处理线性关系的强大工具。

        从几何学的角度来看,矩阵可以用于表示几何变换。通过将向量表示为矩阵的列或行,可以应用平移、旋转、 缩放等几何变换。矩阵乘法用于组合多个变换,从而实现更复杂的几何操作。 在计算机图形学和计算机视觉中,矩阵在处理和表示二维或三维对象的位置、方向和形状方面起着重要作用。

4. 张量 (Tensor):

        三维、四维、五维等高维数组。例如图像就属于三维的数组。

5. 范数:(Norm:size of a vector):

        衡量向量或矩阵大小的方法。

        常见的范数是L1范数和L2范数。

        L2范数也叫欧式距离。L2 Norm / Euclidean Distance

        5.1 范数最常见的应用是:

                (1)均方误差成本函数。真实值与预测值之间的平方差之和其实就是从真实值向量中减去预测值向量得到的结果向量的L2范数。

                (2)正则化。在ridge回归中,我们对权重进行了约束。

        5.2 范数的公式:

        

        5.3 空间中两点的距离

6. 内积 / 点积

内积也称为点积。求点积就是将相应的坐标配对,求出每一对坐标的乘积,然后相加求和。

乘法相当于“缩放”,加法相当于“降维”。

7. 余弦定理

8. 余弦相似度 Cosine Similarity

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为0到1之间。

9. 方差

        方差(Variance)是统计学中的一个重要概念,它用于衡量一组数据与其平均数(或均值)之间的偏离程度。换句话说,方差描述了数据分布的离散程度或波动大小。

        方差越大,说明数据与其均值的偏离程度越大,即数据的离散程度越大;

        方差越小,说明数据与其均值的偏离程度越小,即数据的离散程度越小。

        注意:在实际应用中,特别是当数据量较大时,为了得到更稳定的方差估计,我们通常会使用样本方差(Sample Variance),其计算公式为:

10. 标准差

        标准差是衡量数据离散程度或波动大小的统计量。它表示了数据集中各个数据点与均值之间的平均差异。

        标准差越大,说明数据越分散;标准差越小,说明数据越集中。

        对于一组数据,其标准差σ(对于总体)或s(对于样本)的计算公式为:

11. 协方差

         协方差是衡量两个变量之间线性关系的统计量。

        它表示了两个变量在变化过程中是同方向变化还是反方向变化,以及变化的程度

        如果两个变量的协方差为正,则它们正相关;如果为负,则它们负相关;如果为零,则它们不相关(但不一定是独立的)。

        对于两个变量X和Y,其协方差Cov(X,Y)的计算公式为:

12. 高斯分布 / 正态分布

        高斯分布,也称为正态分布(Normal Distribution),是统计学中非常重要的一种连续概率分布。它描述了许多自然现象和社会现象的随机变量,如身高、体重、考试成绩等。

        高斯分布由两个参数决定:均值(μ)和标准差(σ)。

        定义

        高斯分布的概率密度函数(Probability Density Function, PDF)为:

性质

  1. 对称性:高斯分布是关于其均值 μ 对称的。
  2. 集中性:大部分数据都集中在均值 μ 附近,特别是距离均值 μ 三个标准差 σ 以内的数据,几乎占据了全部数据的99.7%。
  3. 可加性:两个独立的高斯分布随机变量的和仍然服从高斯分布。
  4. 可变性:高斯分布可以通过线性变换(加常数或乘以常数)转换为另一个高斯分布。

应用

高斯分布在自然科学、社会科学、工程技术等众多领域都有广泛应用。例如:

  • 在统计学中,用于假设检验、置信区间估计等。
  • 在机器学习中,许多算法都假设数据服从高斯分布,如线性回归、高斯混合模型等。
  • 在物理学中,描述粒子在空间中的分布。
  • 在经济学中,分析股票价格、收益率等金融数据的波动。

标准化高斯分布

当 μ=0 且 σ=1 时,高斯分布称为标准化高斯分布(或标准正态分布)。其概率密度函数简化为:

 

13. 贝叶斯定理

        贝叶斯定理(Bayes' Theorem)是概率论中的一个重要定理,它描述了在一个事件已经发生(我们称之为结果或证据)的条件下,另一个事件(我们称之为原因或假设)发生的概率。

        贝叶斯定理的公式

解释

  • 先验概率:在观察数据之前,我们对事件发生的概率的估计。
  • 后验概率:在观察了数据之后,我们对事件发生的概率的更新估计,即P(A∣B)。
  • 似然函数:P(B∣A),表示在给定假设A为真的情况下,观察到数据B的概率。
  • 证据因子:P(B),是一个归一化常数,确保后验概率是一个有效的概率值(即在所有可能假设上的和为1)。

应用

贝叶斯定理在很多领域都有应用,包括但不限于:

  • 机器学习:在分类问题中,可以使用贝叶斯分类器,它基于贝叶斯定理来预测新数据点的类别。
  • 自然语言处理:在文本分类、情感分析等任务中,贝叶斯方法可以用来估计单词或短语在给定类别下的出现概率。
  • 医学诊断:医生可以根据患者的症状(事件B)和疾病的先验概率(事件A的先验概率),使用贝叶斯定理来计算患者患有某种疾病(事件A)的后验概率。
  • 法律:在证据评估中,可以使用贝叶斯定理来评估证据对假设的支持程度。

注意事项

  • 贝叶斯定理的应用需要准确的先验概率和似然函数,这些通常需要通过经验、实验或专家知识来估计。
  • 在实际应用中,可能需要考虑多个假设和多个证据,这会使计算变得复杂。
  • 贝叶斯定理的结果是概率值,它表示了假设为真的可能性,而不是确定性的结论。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值