捋一捋PDF、PMF、CDF是什么

总第230篇/张俊红

还记得前段时间看过一篇文章,就是调查大家疫情期间都干了什么,有一条是疫情期间终于弄清楚了PDF和CDF的区别。PDF、PMF、CDF这几个概念确实很容易混淆。今天就来捋一捋这几个概念。

1.基本概念

PDF:是英文单词 probability density function 的缩写,翻译过来是指概率密度函数,是用来描述连续型随机变量的输出值,在某个确定的取值点附近的可能性的大小的函数。

PMF : 是英文单词 probability mass function 的缩写, 翻译过来是指概率质量函数,是用来描述离散型随机变量在各特定取值上的概率。

CDF : 是英文单词 cumulative distribution function 的缩写,翻译过来是指累积分布函数,又叫分布函数,是概率密度函数的积分,用来表示离散型随机变量x的概率分布。

总结一下就是上面三者的横轴都是随机变量x的取值,PDF的纵轴表示连续型随机变量x出现的可能性(非概率),PMF的纵轴表示离散型随机变量x出现的概率,CDF的纵轴表示连续型随机变量x的概率。

相信大家看完上面的概念以后对这几个还是有点懵,接下来我们就仔细讲讲这些概念的来龙去脉。

2.频率分布条形图

频率分布条形图主要用在离散数据中,横轴为一个个具体的点(类别),纵轴为这些点对应的频率。

当试验次数足够多时,我们可以用频率来代替概率,也就是可以把频率分布条形图中的纵轴当作每个类别出现的概率值。此时的频率分布条形图就可以当作是PMF图。

3.频率分布直方图

在频率分布直方图中横轴表示众多个连续变量离散化以后的区间,这个区间的大小称为组距,纵轴表示频率/组距。

上图中每个长方形的面积就是该区间的频率,即概率。

当长方形的宽度无限小,即组距无限小的时候,频率分布直方图就无限接近于下方这样的光滑曲线,我们把这条曲线叫做概率密度曲线,即PDF。

4.累积分布函数

累计分布函数就是从上图中的概率密度曲线的最左边开始,然后逐渐往右求取曲线下方的面积,即概率。

以上就是关于PDF、PMF、CDF三者之间的异同情况,如果对公式推导方面感兴趣的话可以直接上网搜索即可。

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

俊红的数据分析之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值