机器学习数学基础：常见分布与假设检验

最新推荐文章于 2022-10-18 14:05:00 发布

Datawhale

最新推荐文章于 2022-10-18 14:05:00 发布

阅读量1.9k

点赞数 1

本文链接：https://blog.csdn.net/Datawhale/article/details/107133026

版权

本文深入探讨机器学习中的统计基础，重点介绍了常见的数据分布，如正态、拉普拉斯、伯努利、二项、均匀、泊松和指数分布，并通过实例展示了如何使用Python进行分布的模拟和可视化。此外，文章还简述了假设检验的重要性，包括t检验、F检验、卡方检验等，强调了在实际应用中如何进行统计推断。

摘要由CSDN通过智能技术生成

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：吴忠强，Datawhale优秀学习者，东北大学

所谓机器学习和深度学习，背后的逻辑都是数学，所以数学基础在这个领域非常关键，而统计学又是重中之重，机器学习从某种意义上来说就是一种统计学习。

这次是学习概率统计的第三篇文章，基于前两篇文章进行展开。在第一篇文章的概率论基础学习了离散型随机变量和连续型随机变量及其分布，本篇将继续会学习七种机器学习领域中常见的数据分布。

而这篇文章的第二部分假设检验，属于第二篇数理统计的内容，假设检验是统计推断中的一类重要问题，在总体的分布函数完全未知或只知其形式，不知其参数的情况，为了推断总体的某些未知特性，提出某些关于总体的假设，然后收集数据去构造统计量测试，以决定总体假设的正确性，这就是假设检验的过程。

大纲如下：

常见分布(正态，拉普劳斯，伯努利，二项，均匀，泊松，指数)
假设检验（t检验， F检验，卡方检验，正态， ANOVA， Mann-Whitne U）

思维导图：

常见分布

在介绍常见分布之前，先来聊两个题外的话题：独立同分布与数据的分布。

第一个话题就是独立同分布，这个词相信我们不管是教科书还是机器学习的书籍都会碰到吧，英文名为：independent and identically distributed，简称i.i.d（这种简写要认识哟）。那么究竟什么是独立同分布呢？

下面我们就用抛硬币的例子来解释独立和同分布，这样可能会更加清楚：

抛掷一枚硬币，记出现正面为事件 , 事件发生的概率为且为0.4。

接下来开始做抛掷硬币实验，第一次抛掷硬币出现正面的概率为 0.4，第二次抛掷硬币出现正面的概率也为 0.4，第次正面出现的概率也为0.4，也就是说每次抛掷硬币得到的结果没有任何关系，那么我们就说这些试验结果是相互独立的。而如果抛掷一枚智能硬币，如果第出现反面，那么第次一定是正面，这样的就不是独立的，后面的结果依赖于前面的实验结果。

同分布指的是每次抛掷试验，我们都使用的同一枚硬币，也就是必须保证始终一样，不能说我第一次有了正面概率是0.4的硬币，第二次换成了正面概率是0.6的硬币，这样就不是同分布了。

第二个话题就是我们为啥要关心数据的分布呢？

大部分机器学习算法都是根据已有历史数据，去学习它们的分布规律，也就是分布的参数。一旦学习到分布的参数后，当再进来新的、未知的数据时，学到的算法模型便会预测或决策出一个结果。这是大部分机器学习的学习过程。

考虑这种情况，如果我们拿训练使用的数据来评价模型好快时，得分肯定高，但是完全没有意义，相信也不会有人这么做，因为它们已经对模型完全学习到、完全已熟悉。

再考虑另一种情况，如果测试用的数据来自完全不同的数据分布，模型预测它们的结果得分往往不会好，虽然也会得到一个分数。测试数据集的分布和训练数据集的数据分布差异太大，训练的模型即便泛化的再好，预测与己分布差异很大数据时也无能为力。

基于以上两种极端情况，我们的希望便是测试数据集要尽可能匹配训练模型所使用的的数据分布，在这个前提下，再去优化调参模型才更有意义，努力才不会白费。

所以如果满足训练数据集和测试数据集的分布近似相同，算法模型才更能发挥威力，这也就是我们为啥要知道一些基本分布的原因。

好了，铺垫了这么多，下面就正式学习常见分布了：我们先从连续型随机变量和分布开始。

一、连续型随机变量及常见分布

对于连续型随机变量，使用概率密度函数（probability density function），简称PDF，来描述其分布情况。

连续型随机变量的特点在于取任何固定值的概率都为0，因此讨论其在特定值上的概率是没有意义的，应当讨论其在某一个区间范围内的概率，这就用到了概率密度函数的概念。

假定连续型随机变量，为概率密度函数，对于任意实数范围如[a,b]，有