机器学习原理篇：基础数学理论 Ⅱ

最新推荐文章于 2023-11-08 14:56:28 发布

-北天-

最新推荐文章于 2023-11-08 14:56:28 发布

阅读量575

点赞数 3

分类专栏： Python人工智能

本文链接：https://blog.csdn.net/qq_52417436/article/details/126835240

版权

Python人工智能专栏收录该内容

10 篇文章 2 订阅

订阅专栏

机器学习原理篇：基础数学理论 Ⅱ

文章目录

机器学习原理篇：基础数学理论 Ⅱ

一、前言

前面我们总结了有关微积分和线性代数的知识，本期我们继续总结有关概率论、数理统计以及最优化理论的知识。

二、概率论

概率论是研究随机先行数量规律的数学分支。随机现象是相对于决定性现象而言的，在一定条件下必然发生某一结果的现象称为决定性现象。概率论是学习人工智能必备的数学知识。概率论已经替代了逻辑主义的功能，被广泛应用于人工智能算法研究。概率论代表了一种看待世界的方式，其关注的焦点是无处不在的可能性，对随机事件发生的可能性进行规范的数学描述是概率论的公理化过程。因此，机器学习算法中经常使用概率统计工具来解决不确定量或随机量。事件的概率是衡量该事件发生的可能性的度量。虽然在一次随机试验中某个事件的发生时带有偶然性的，但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。

现阶段人工智能研究需要处理的行业信息、数据、资料等都爆发式增长，这使得概率统计成了机器学习的一个关键内容。概率论中，人们认为数据分布是固定不变的，参数要经过计算才能得知，而贝叶斯观念却认为数据分布具有随机性，参数要进行概率最大化后进行计算。

概率论中存在两个学派，即“频率学派”和“贝叶斯学派”。两种概率学派的核心区别在于对先验分布的认识。频率学派认为，假设是客观存在且不会改变的，即存在固定的先验分布，只是作为观察者的我们无从知晓，因而在计算具体事件的概率时，要先确定概率分布的类型和参数，然后以此为基础进行概率推演。相比之下，贝叶斯学派则认为，固定的先验分布是不存在的，参数本身是随机数。换而言之，假设本身取决于观察结果，是不确定且可以修正的。数据的作用是对假设做出不断的修正，使观察者对概率的主观认识更加接近客观实际。

目前，很多机器学习算法是由概率统计的理论作为基础支撑推导出来的，比如代价函数的最小二乘形式、逻辑回归算法都基于对模型的最大似然估计。

概率论中的高斯函数及中心极限定理被广泛应用于人工智能算法。独立同分布的不同随机变量之和会随着变量数的增加而趋向于高斯分布，因此，很多模型假设都采用了高斯函数进行建模。

三、数理统计

在人工智能技术中，概率论与数理统计的知识占据重要的地位。数理统计理论有助于对机器学习算法和数据挖据的结果做出解释，只有做出百理的解1例，记X据Dw组方P比够体现。数理统计以概率论为基础，研究大量随机现家的统计规律性。根掂观宗头桠得到的数据来研究随机现象，并对研究对象的客观规律做出合理的估计和判断。

基础性的数理统计可以协助我们对机器学习算法及数据挖掘的结果进行统计、分析。只有经过科学、严谨的分析和处理，数据结果才能用于实际情况。这种数理统计可以迪过观察和研究，对数据、结果、信息做进一步纵回和横口的对比，同时进行科学的审查和预估，得出客观的结果。

尽管数理统计将概率作为理论来源，但两者之间有根本上的区别。概率论作用的前提是随机变量的分布已知，其根据已知的分布来分析随机变量的特征与规律﹔数理统计的研究对象则是分布未知的随机变量，其研究方法是对随机变量进行独立重复的观察，根据得到的观察结果对原始分布做出推断，数理统计可以看作逆向性的概率论。

若检验是通过随机抽取的样本来对一个总体的判断结果进行认可或否定，则可以将其用于估计机器学习模型的泛化能力。

四、最优化理论

人工智能的目标就是最优化，就是在复杂环境与多体交互中做出最优决策。几乎所有的人工智能问题最后都会归结为一个优化问题的求解，因此，最优化理论同样是学习、研究人工智能必备的基础知识。

最优化理论研究的问题是判定给定目标函数的最大值或最小值是否存在，并找到令目标函数取到最大值或最小值的数值。如果把给定的目标函数看成连绵的山脉，最优化的过程就是找到顶峰（谷底）且到达顶峰（谷底）的过程。

最优化理论的研究内容主要包括线性规划、（不）精确搜索、最速下降法、牛顿法、共辄梯度法、拟牛顿法、（非)线性最小二乘法、约束优化最优性条件、二次规划、罚函数法和信赖域法等。

1、目标函数

要实现最小化或最大化的函数称为目标函数，大多数最优化问题都可以通过使目标函数f(x)最小化解决，最大化间题也可以通过最小化f(x)来解决。实际的最优化方法可能找到的是目标函数的全局最小值，也可能是局部极小值，两者的区别在于全局最小值比定义域内所有其他点的函数值都小，而局部极小值只比所有邻近点的函数值小。

当目标函数的输入参数较多、解空间较大时，大多数实用的最优化方法都不能满足全局搜索对计算复杂度的要求，因而只能求出局部极小值。但是，在人工智能和深度学习的应用场景中，只要目标函数的取值足够小，就可以把这个值当作全局最小值使用，以此作为对性能和复杂度的折中。

2、线性规划

根据约束条件的不同，最优化问题可以被分为无约束优化和约束优化两类。无约束优化对自变量x的取值没有限制，约束优化则把x的取值限制在特定的集合内，也就是其要满足一定的约束条件。

典型的约束优化方法是线性规划，其解决的问题通常是在有限的成本约束下取得最大的收益。约束优化问题通常比无约束优化问题更加复杂，但通过引入拉格朗日乘子，可以将含有n个变量和k个约束条件的约束优化问题转化成含有n+k个变量的无约束优化问题。

3、梯度下降法

无约束优化问题最常用的方法是梯度下降法。梯度下降法是求解无约束优化问题最常用的方法，它是一种迭代方法。直观地说，梯度下降法就是沿着目标函数值下降最快的方向寻找最小值。当函数的输入为向量时，目标函数的图像就变成了高维空间上的曲面，此时的梯度就是垂直于曲面等高线并指向高度增加方向的向量，其携带了高维空间中关于方向的信息。而要让目标函数以最快的速度下降，就需要让自变量在负梯度的方向移动，用数学语言表示就是“多元函数沿其负梯度方向下降最快”。

梯度下降法实现简单，一般情况下，其解不保证是全局最优解。而当目标函数是凸函数时，梯度下降法的解是全局最优解。由于梯度下降法只用到目标函数的一阶导数，因而其下降的速度未必是最快的。