一文捋清人工智能中的数学基础

人工智能(Artificial Intelligence,简称AI)正在以惊人的速度改变着我们的生活。然而,要实现智能的机器,离不开数学的支持。在模型构建过程中,我们经常设计各种概念,例如维数灾难、正则化、二进制、多分类、有序回归等。神经元是深度学习的基本单位,该结构完全基于数学概念,即输入和权重的乘积和。至于Sigmoid、ReLU等等激活函数也依赖于数学原理。正确理解机器学习和深度学习的概念,掌握以下数学领域至关重要:线性代数、微积分、矩阵分解、概率论、解析几何等。
本文主要带大家探索人工智能、大数据、数据挖掘等相关专业线性代数、微积分及概率论等相关基础。

1 线性代数 (Linear Algebra)

线性代数是人工智能的数学基础之一,它涉及向量、矩阵、线性变换等概念。在机器学习和深度学习中,线性代数被广泛应用于数据处理、特征提取和模型训练方面。
通过线性代数,我们可以实现以下机器学习或深度学习方法:
推导回归方程、通过线性方程预测目标值、支持向量机SVM、降维、均方差或损失函数、正则化、协方差矩阵、卷积等。

1.1 矩阵

矩阵是线性代数的重要概念。一个mn矩阵包含mn 个元素,可用于线性方程组或线性映射的计算,也可将其视为一个mn个实值元素组成的元组。
在这里插入图片描述

1.2 向量

在线性代数中,向量是大小为n*1的矩阵,即只有一列
在这里插入图片描述

1.3 矩阵乘法

矩阵乘法是行和列的点积,其中一个矩阵的行与另一个矩阵列相乘并求和。
在这里插入图片描述

1.4 转置矩阵

对于矩阵A∈R^m* n 有矩阵B∈R^n*m满足b_ij = a_ji,称为A的转置,即B=A^T
在这里插入图片描述

1.5 逆矩阵

对n阶矩阵A,有矩阵B∈R^n*n满足AB =I_n(单位矩阵)= BA的性质,称B为A的逆,表示为A^-1。
在这里插入图片描述
矩阵A和B
在这里插入图片描述
A和B相乘
在这里插入图片描述
A、B互为逆矩阵(得到单位矩阵)

1.6 正交矩阵

当且仅当矩阵列向量组是单位正交向量组时,n阶矩阵A∈R^n*n是正交矩阵,有:
在这里插入图片描述
正交矩阵

在这里插入图片描述
矩阵A及其转置
在这里插入图片描述
矩阵A及其转置的乘积

1.7 对角矩阵

在n阶矩阵A∈R^n*n中,除主对角线上的元素,其他所有元素均为零,称其为对角矩阵,即:Aij =0,i != j
在这里插入图片描述

2 微积分

微积分是概数统计基础,概数统计则是DM&ML之必修课。

2.1 积分

2.1.1 阿基米德穷竭法

如下图,如何求一条曲线与直线BC所围成弓形的面积
在这里插入图片描述
阿基米德用的穷竭法:
画一个蓝色的大三角形ABC(过A点的切线与直线BC平行)
则 S = S▲ABC + 剩余两个小弓形的面积,那如何求这两个小弓形的面积,则按照第一步的方法继续创造两个绿色小三角形。
发现两个绿色三角形的面积之和刚好等于一个蓝色三角形的面积的1/4
再之后又用4个黄色三角形去填充剩余的弓形。发现4个黄色三角形的面积之和刚好是2个绿色三角形的1/4,相当于1个蓝色三角形面积的1/16,也就是 在这里插入图片描述
该过程无限延续下去
在这里插入图片描述
阿基米德计算了几项,直觉告诉他这个结果不断逼近在这里插入图片描述
,也就是三角形越多,面积越接近在这里插入图片描述
于是阿基米德猜想:如果我把无穷多个三角形的面积都加起来,这个结果应该刚好等于。

2.1.2 积分概念

穷竭法可以精确地算出一些曲线围成的面积,但是对于不同的曲线围成的面积使用不同的图形去逼近。比如上面使用的是三角形,在其他地方可能用其他图形。不同图形证明技巧不同。于是到了一千年后的十七世纪,大家就统一使用矩形来逼近:不管你是什么曲线围成的图形,都用矩形来逼近。而且沿着X轴做切割,如下图,求y=的图像在0到1之间与x轴围成的面积。
在这里插入图片描述
1.用无数多个矩形来逼近原图形,假设0到1之间被分成了n份,那么每一份的宽度是1/n,那么每一个矩形对应的横坐标则为1/n 、2/n、3/n ,而矩形的高度就是函数y=的值即纵坐标的值。
于是,所有矩形的面积之和S就可以写成这样:
在这里插入图片描述
如果n无穷大,则S=1/3。
所以积分这个词造出来了,表示“由无数个无穷小的面积组成的面积S”,比如,如果一条曲线y=f(x)和x轴在a和b之间围成的面积S。即在这里插入图片描述
在这里插入图片描述

2.2 导数

设有定义域和取值都在实数域中的函数y=f(x)
1、若f(x)在点在这里插入图片描述
的某个邻域内有定义,则当自变量x在在这里插入图片描述
处取得增量在这里插入图片描述
(点+仍在该邻域内)时,相应地函数y取得增量在这里插入图片描述

2、如果在这里插入图片描述
在这里插入图片描述
之比当在这里插入图片描述
时的极限存在,则称函数y=f(x)在点在这里插入图片描述
处可导,并称这个极限为函数在这里插入图片描述
在点处的导数,记为在这里插入图片描述

3、即在这里插入图片描述
在这里插入图片描述
也可记为
在这里插入图片描述
由于导数的定义中用到了极限的定义,什么是极限呢?
设函数f(x)在点在这里插入图片描述
的某一去心邻域内有定义
如果存在常数A,对于任意给定的正数在这里插入图片描述
(不论它多么小),总存在正数d,使得当x满足不等式在这里插入图片描述
时,对应的函数值f(x)都满足不等式在这里插入图片描述
, 那么常数A就叫做函数f(x),在在这里插入图片描述
时的极限,记为在这里插入图片描述

换言之在这里插入图片描述
, 等价于在这里插入图片描述
,当在这里插入图片描述
在这里插入图片描述

有了导数,我们就能轻而易举地求一条曲线的极值(极大值或极小值)。因为只要导数不为0,曲线在这里就是在上升(大于0)或者下降(小于0)的,只有导数等于0的地方,才有可能是一个极值点。
在这里插入图片描述

2.3 微分

2.3.1 速度位移公式

速度位移公式为 在这里插入图片描述
当物体做匀速运动的轨迹就是一条平行于t轴的直线,速度乘以时间刚好就是它们围成的矩形的面积s,而速度乘以时间的物理意义就是它的位移。所以面积代表位移。
在这里插入图片描述
当物体不是做匀速运动(轨迹是曲线)的时候,可以把时间切割成很多小段,在每一小段里把它们近似当作匀速运动,这样每一小段的面积就代表每一个小段里的位移。
然后再把所有小段的面积加起来,得到的总面积代表总位移,即曲线在这里插入图片描述
在t轴在这里插入图片描述
在这里插入图片描述

之间围起来的黄色图形的面积s一样代表位移
在这里插入图片描述
反过来,对曲线在在这里插入图片描述
时刻求导,是不是在这里插入图片描述
时刻的瞬时速度在这里插入图片描述
也就是说我们对速度v做一次积分能得到位移s,而对位移s求一次导数(微分)就能得到速度v,相当于积分和微分是一种互逆运算关系:
在这里插入图片描述
此举意味着当我们求某个函数比如在这里插入图片描述

的面积时,当通过在这里插入图片描述

积分不太好求时,我们可以计算
的原函数在这里插入图片描述
,因为原函数就是位移公式,本身就是面积。

2.3.2 微分概念

设函数在这里插入图片描述
在某区间内有定义
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3.3 牛顿-莱布尼茨公式

通过原函数反向求定积分:牛顿-莱布尼茨公式
如果函数F(x)是连续函数f(x)在区间[a, b]上的一个原函数,则
在这里插入图片描述
此公式也称为微积分基本定理。此公式由此打通了原函数与定积分之间的联系,它 表明:一个连续函数在区间[a, b]上的定积分等于它的任一原函数在区间[a, b]上的增量。
相当于函数反向求导得到的原函数本来就代表面积,那么F(b)-F (a)自然就是这两点之间的面积之差。
即对于在这里插入图片描述
,当要求f(x)在x轴在0到1之间围成的面积时,即要计算在这里插入图片描述
,则找到的一个原函数在这里插入图片描述
,所以
在这里插入图片描述

2.3.4 偏导数

对于二次函数在这里插入图片描述
如果令自变量y固定,自变量x变化。函数对x求导,就称为二元函数在这里插入图片描述
对于x的偏导数。
定义 设函数 在这里插入图片描述在点在这里插入图片描述的某一邻域内有定义,当y固定在在这里插入图片描述而x在在这里插入图片描述
处来增量时,相应地函数有增量在这里插入图片描述如果极限在这里插入图片描述存在,则称此极限函数在这里插入图片描述在点在这里插入图片描述
处对x的偏导数,记作:在这里插入图片描述
类似的,二元函数对求偏导,则把x当作常量。
此外,上述内容只讲了一阶偏导,而有一阶偏导就有二阶偏导。

3 矩阵分解

矩阵分解(Matrix Factorization)是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算,这些运算可以在分解的矩阵上执行,而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。
矩阵分解的一个常见类比是数字因子分解,例如将10因子分解为2×5。与分解实数值一样,有很多方法可以分解矩阵。因此有一系列不同的矩阵分解技术。

在这里插入图片描述
举例:近似非负矩阵分解的展示。矩阵V是由两个较小的矩阵W和H表示,当它们相乘时,近似地重构V。

矩阵分解原理

在这里插入图片描述
矩阵分解算法将m×n维的矩阵R分解成m×k的矩阵P和k×n维的矩阵Q相乘的形式。k为隐向量(Latent Factor)的维度。k的大小决定了隐向量表达能力的强弱。

3.1 特征值分解

A为n阶矩阵,若数λ 和n维非0列向量单位满足在这里插入图片描述
,那么数在这里插入图片描述
称为A的特征值,称为A对应于特征值在这里插入图片描述
的特征向量。可以这样理解:在这里插入图片描述为矩阵变化的大小,在这里插入图片描述为矩阵变换的方向。但是特征值只能用于方阵。
特征值分解,就是将矩阵A分解为如下式
在这里插入图片描述
Q是矩阵A的特征向量组成的矩阵,在这里插入图片描述
则是一个对角阵,对角阵的元素就是特征值。里面的特征值由大到小排列,这些特征值所对应的特征向量就是描述这个矩阵变换方向。我们通过特征值分解,得到前N个特征向量,这就对应了这个矩阵最主要的N个变化方向。我们利用前N个变化方向,就可以近似这个矩阵变换。也就是说:提取这个矩阵最重要的特征。
例:方阵A如下
在这里插入图片描述
首先,由方针A的特征方程,求出特征值。

在这里插入图片描述
特征值在这里插入图片描述
然后,把每个特征值在这里插入图片描述带入线性方程组在这里插入图片描述求出特征向量

在这里插入图片描述
在这里插入图片描述
最后,方阵A的特征值分解为:
在这里插入图片描述

3.2 奇异值分解

假设一个矩阵M是一个m×n的矩阵,则一定存在一个分解
在这里插入图片描述
其中U是m×m的正交矩阵,V是n×n的正交矩阵,Σ是m×n的对角矩阵。Σ对角线上的元素就称为M的奇异值。
例如:A矩阵
在这里插入图片描述
矩阵A为6×4 的用户评分矩阵,6个用户对4个物品一共有19个评分,0代表没评分。
使用SVD进行分解得到:
在这里插入图片描述
分解后,U矩阵为6×6的正交矩阵,V为4×4的正交矩阵。S为对角矩阵即公式中的在这里插入图片描述
。选取S中较大的k个元素作为隐含特征。删除S的的其他维度以及U和V对应的维度,矩阵分解就完成了。
我们使用最大的k个值和对应大小的U、V矩阵来近似描述原始的评分矩阵。这就是SVD做降维算法的核心思想。
这里k取2 则
在这里插入图片描述

3.4 矩阵分解的原因

分解是说:把一个复杂的东西拆解开来,看看哪些基本部件存在。
通过研究这些基本部件,来解析这个复杂物体,这个思想在数学中经常能够看到,比如说因式分解,泰勒展开,傅里叶变换,基变换等。
通过某种手段,可以讲矩阵分解成基本的单元。通过这些基本单元,我们可以重新构造出该矩阵。

3.5 矩阵分解作用

矩阵填充(通过矩阵分解来填充原来矩阵,例如协同过滤的ALS算法就是填充原来矩阵)
清理异常值与离群点
降维、压缩
个性化推荐
间接的特征组合(计算特征间相似度)

4 概率论

4.1 样本空间

定义:随机试验E的所有结果构成的几何称为E的样本空间,记为 在这里插入图片描述,称S中的元素e为样本点,一个元素的单点集称为基本事件

4.2 概率

1.条件概率就是事件A在另一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
2.联合概率表示两个事件共同发生的概率,A与B的联合概率表示为P(A∩B)或者
P(A,B)。
3.边缘概率是某个事件发生的概率。A的边缘概率表示为P(A),B的边缘概率表示
P(B)。

且:在这里插入图片描述
在这里插入图片描述

4.3 全概率公式

在这里插入图片描述

4.4 贝叶斯定理

贝叶斯定理(Bayes’ theorem),是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。

5 解析几何

5.1 范数

对于几何向量,即从原点开始的有向线段,直观地说,它的长度是有向线段的“终点”到原点的距离。下面,我们将用范数来讨论向量长度这一概念。
向量空间V的范数是一个指定每个向量x的长度的函数
在这里插入图片描述
在这里插入图片描述
例:欧几里得范数
在这里插入图片描述

5.2 内积

内积可以引入一些直观的几何概念,例如向量的长度和两个向量之间的角度或距离。内积的一个主要目的是确定向量之间是否正交。

5.3 点积

我们可能已经熟悉了一种特殊类型的内积,中的标量积。

在这里插入图片描述

在这本书中,我们将把这种特殊的内积称为点积。

6 后记

本文目的希望大家能够简单了解一些涉及人工智能的数学知识,本文目前略有粗糙,部分内容还未完善,后续再改。

作业:本文读懂即可。

参考文章:人工智能的数学基石:揭秘人工智能十大数学基础 (baidu.com) https://baijiahao.baidu.com/s?id=1776618976522911946&wfr=spider&for=pc

深度学习和机器学习的线性代数入门 - 知乎 (zhihu.com) https://zhuanlan.zhihu.com/p/272531295

概率统计极简入门:通俗理解微积分/期望方差/正态分布前世今生(23修订版)_概率统计极简入门:通俗理解微积分/期望方差/正态分布前世今生-CSDN博客 https://blog.csdn.net/v_JULY_v/article/details/8308762?spm=1001.2014.3001.5502

万字文经典-全面通俗解读矩阵分解的历史、方法、数学本质及物理含义 - 知乎 (zhihu.com) https://zhuanlan.zhihu.com/p/631506813

矩阵分解(Matrix-Factorization)无门槛-CSDN博客 https://blog.csdn.net/m0_67097397/article/details/127636440

【机器学习的数学基础】(四)解析几何(Analytic Geometry)(上) - 知乎 (zhihu.com) https://zhuanlan.zhihu.com/p/376271005?utm_id=0

  • 31
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值