机器学习中用到的概率知识_山顶洞人学机器学习之常见的概率分布

机器学习是实现人工智能的重要技术之一。在学习机器学习的过程中,必须要掌握一些基础的数学与统计知识。之前的两篇文章我们分别讲述了中心极限定理与大数定律,它们是数据分析的理论基础。今天我们来介绍几种常见的概率分布,掌握这些概率分布的类型,能够帮助我们很好的理解数据的内在规律。本文的结构安排如下:首先介绍数据类型与概率分布,然后介绍几种常见的概率分布类型,主要包括离散概率分布(伯努利分布与二项分布),连续概率分布(正态分布、指数分布),最后对整个概率分布进行总结。

f44c60d0e1ff823b13e77c7de50492ea.png

概率分布思维导图

数据类型与概率分布

数据类型

按照不同的分类标准可以将数据分成不同的数据类型,一般来说,数据可以离散型数据和连续型数据。离散型数据通常是指只能通过整数来表现的数据,比如说抛硬币的结果,要么是0,要么是1,还有年龄、学生人数等等。而连续型数据是指在一定的区间的可以任意取值的数据,比如说身高、时间的长短等。

概率分布

生活中的事可以分为确定事件与不确定事件。确定事件包括必然事件(太阳明天升起)与不可能事件(太阳从西边升起)。随机事件就是在一定的条件下,可能发生也可能发生的事件,比如明天的天气,可能是晴,也有可能是阴天。概率论研究的是不确定性(务必牢记)。而随机变量是随机事件的数量表现。根据前面的数据类型分类,可以分为离散型随机变量与连续型随机变量。概率分布是指用于表述随机变量取值的概率规律,它有两种类型,离散概率分布(概率质量函数)与连续概率分布(概率密度函数)

几种常见非概率分布

伯努利分布

伯努利分布,又称为两点分布或者0-1分布,它是一种离散分布,1表示成功,0表示失败。如果进行一次伯努利实验,成功的概率为p(X=1),失败的概率为1-p(X=0),我们则称为随机变量X的分布为伯努利分布,它的概率质量函数为

97ed5b85ceb1e7bc05d46744d913808c.png

伯努利分布函数

在机器学习的过程中,我们经常用到伯努利分布,因为我我们总是想让机器做出“是”或者“否”的回答。

be4ace350d875415ed0a2cbcdccd5b4f.png

伯努利分布示例

二项分布

如果我们进行n重伯努利实验,每次成功的概率为P,X代表成功的次数,我们把x 的这种分布称为二项分布,它的概率质量函数为

4fe36f6c1d222677fffa834796c3a23a.png

二项分布函数

二项分布的例子在生活中很常见,比如我们抛十次硬币,我们像计算这十次当中正面出现的概率为多少的时候,我们就可以应用二项分布来解决。

7d9435ef71801b283e4232e4e36d571f.png

二项分布示例

正态分布

正态分布又可以称为高斯分布,我们可以用数学语言来描述:若随机变量X服从一个数学期望值为u、标准差为ό的概率分布,我们把它称为随机变量服从正态分布。它的概率密度函数为:

6ce98882c7d2a4ead503b0329a76d519.png

正态分布函数

正态分布的期望值u决定了它的位置,而标准差决定了幅度。它的应用及其的广泛,我们生活与工作中的大多数事情都可以用正态分布来表示,比如说某一个高校学生的身高分布。

9f3f51391d425c0a78435898af4c518e.png

正态分布示例

指数分布

如果X∼exp(λ),我们称它为指数分布,它常用来表示事情发生的间隔时间。它的概率密度函数为:

76e401d9e9ad2b82c9e050371fb982f1.png

指数分布函数

指数分布最常见的例子就是“寿命”类事件的分布,比如家电使用的寿命,近期发生故障的时间间隔,电话问题里的通话时间等等。

40c0f4665ea9111db10bc032050ee907.png

指数分布示例

总结

概率分布是指用于表述随机变量取值的概率规律。它可以分为离散概率分布(伯努利分布与二项分布)和连续概率分布(正态分布、指数分布)。其实,生活中还有一些其他的概率分布,比如泊松分布、几何分布、t分布等等。要学习这些概率分布,还是要和生活相联系。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值