机器学习中用到的概率知识_山顶洞人学机器学习之常见的概率分布

最新推荐文章于 2024-01-10 02:13:42 发布

weixin_39835117

最新推荐文章于 2024-01-10 02:13:42 发布

阅读量157

点赞数

文章标签：机器学习中用到的概率知识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39835117/article/details/112410934

版权

机器学习是实现人工智能的重要技术之一。在学习机器学习的过程中，必须要掌握一些基础的数学与统计知识。之前的两篇文章我们分别讲述了中心极限定理与大数定律，它们是数据分析的理论基础。今天我们来介绍几种常见的概率分布，掌握这些概率分布的类型，能够帮助我们很好的理解数据的内在规律。本文的结构安排如下：首先介绍数据类型与概率分布，然后介绍几种常见的概率分布类型，主要包括离散概率分布（伯努利分布与二项分布），连续概率分布（正态分布、指数分布），最后对整个概率分布进行总结。

概率分布思维导图

数据类型与概率分布

数据类型

按照不同的分类标准可以将数据分成不同的数据类型，一般来说，数据可以离散型数据和连续型数据。离散型数据通常是指只能通过整数来表现的数据，比如说抛硬币的结果，要么是0，要么是1，还有年龄、学生人数等等。而连续型数据是指在一定的区间的可以任意取值的数据，比如说身高、时间的长短等。

概率分布

生活中的事可以分为确定事件与不确定事件。确定事件包括必然事件（太阳明天升起）与不可能事件（太阳从西边升起）。随机事件就是在一定的条件下，可能发生也可能发生的事件，比如明天的天气，可能是晴，也有可能是阴天。概率论研究的是不确定性（务必牢记）。而随机变量是随机事件的数量表现。根据前面的数据类型分类，可以分为离散型随机变量与连续型随机变量。概率分布是指用于表述随机变量取值的概率规律，它有两种类型，离散概率分布（概率质量函数）与连续概率分布（概率密度函数）

几种常见非概率分布

伯努利分布

伯努利分布，又称为两点分布或者0-1分布，它是一种离散分布，1表示成功，0表示失败。如果进行一次伯努利实验，成功的概率为p（X=1）,失败的概率为1-p（X=0），我们则称为随机变量X的分布为伯努利分布，它的概率质量函数为

伯努利分布函数

在机器学习的过程中，我们经常用到伯努利分布，因为我我们总是想让机器做出“是”或者“否”的回答。

伯努利分布示例

二项分布

如果我们进行n重伯努利实验，每次成功的概率为P,X代表成功的次数，我们把x 的这种分布称为二项分布，它的概率质量函数为

二项分布函数

二项分布的例子在生活中很常见，比如我们抛十次硬币，我们像计算这十次当中正面出现的概率为多少的时候，我们就可以应用二项分布来解决。

二项分布示例

正态分布

正态分布又可以称为高斯分布，我们可以用数学语言来描述：若随机变量X服从一个数学期望值为u、标准差为ό的概率分布，我们把它称为随机变量服从正态分布。它的概率密度函数为：

正态分布函数

正态分布的期望值u决定了它的位置，而标准差决定了幅度。它的应用及其的广泛，我们生活与工作中的大多数事情都可以用正态分布来表示，比如说某一个高校学生的身高分布。

正态分布示例

指数分布

如果X∼exp(λ)，我们称它为指数分布，它常用来表示事情发生的间隔时间。它的概率密度函数为：

指数分布函数

指数分布最常见的例子就是“寿命”类事件的分布，比如家电使用的寿命，近期发生故障的时间间隔，电话问题里的通话时间等等。

指数分布示例

总结

概率分布是指用于表述随机变量取值的概率规律。它可以分为离散概率分布（伯努利分布与二项分布）和连续概率分布（正态分布、指数分布）。其实，生活中还有一些其他的概率分布，比如泊松分布、几何分布、t分布等等。要学习这些概率分布，还是要和生活相联系。

weixin_39835117

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。