数据科学家应知必会的6种常见概率分布

本文探讨了数据科学家必须了解的六种常见概率分布:伯努利、均匀、二项、正态、泊松和指数分布。通过实例和关系分析,帮助读者掌握这些分布的特点和应用,为数据分析和统计推断打下基础。
摘要由CSDN通过智能技术生成

CSDN:http://blog.csdn.net/kicilove/article/

前言

假设你是个大学老师。 在检查了一周的作业后,对学生进行了打分。 让录分员创建一个包含所有学生成绩的电子表格,要求是只含分数不含学生姓名等信息。

这里写图片描述

于是乎,录分员一个大粗心,漏录了好几个分数,介个时候不知道把谁给漏录了。来看看怎么解决这个问题吧。

一种方法是可视化已录数据,并从中发现某些数据中的趋势。

这里写图片描述

上面这个图就是画出来的数据的频率分布图。 可以从图的边缘隐约看到一条光滑的曲线可以用来定义我们的数据,但是我们也得注意到一个异常,有个段的柱条缺半截似的,也就是这一段分数范围内的频率异常低。所以最好是能有些值来把这个短半截给补上。

这就是一个现实生活中用数据分析解决问题的一个例子。对任何科学家而言,不管你是个学生或者是专家,分布是一个必知的概念。因为这是分析和统计推断的基础。

概率概念给了我们计算它的方法,分布才是帮我们看清数据背后的暗泉涌动。

目录:

  1. 常见数据类型
  2. 分布类型
    1. 伯努利分布(Bernoulli Distribution)
    2. 均匀分布(Uniform Distribution)
    3. 二项分布(Binomial Distribution)
    4. 正态分布(Normal Distribution)
    5. 泊松分布(Poisson Distribution)
    6. 指数分布(Exponential Distribution)
  3. 分布之间的关系
  4. 测一测

一、常见数据类型

在正式的解释分布之前,我们先来看一看平时遇到的数据。数据可大致分为离散型数据和连续型数据。

离散型数据

离散型数据顾名思义就是只取几个特定的值。例如:当你掷骰子的时候,结果只有1,2,3,4,5,6,不会出现类似1.5,2.5。

连续型数据

在一个给定的范围内,连续型数据可以取任意值。这个范围可以是有限的或者是无穷的。例如:一个人的体重或者身高,可以取值54kg,54.4kg,54.33333kg等等都没有问题。

下面就开始介绍分布的类型。

二、分布类型

伯努利分布(Bernoulli Distribution)

首先从最简单的分布开始,伯努利分布实际上是一个听起来最容易理解的分布。

伯努利分布一次实验有两个可能的结果,比如1代表success及0代表failure。随机变量 X 一个取值为1并代表成功,成功概率为 p ,一个取值为0表示失败,失败概率为 q 或者说 1p

这里,概率分布函数为 px(1p)1x ,其中 x(0,1) ,我们也可以写成如下形式:

P(x)={ 1ppx=0x=1

成功和失败的概率没必要相同,也就是没必要都是0.5,但是这俩概率加和应该为1,比如可以是下面的图:

这里写图片描述

这个图就是 p(success)=0.15p(failure)=0.85

下面说一下随机变量的期望,一个分布的期望就是这个分布的均值。服从伯努利分布的随机变量 X 的期望值就是:

E(X)=1p+0(1p)=p

服从伯努利分布的随机变量的方差是:

V(X)=E(X2)[E(X)]2=pp2=p(1p)

还有许多伯努利分布的例子,比如说明天是否会下雨,今天会不会去健身,明天乒乓球比赛是不是会赢。

均匀分布(Uniform Distribution)

当你掷骰子的时候,结果出现1到6中的任何一个,而任何一个结果出现的概率都是相同的,这就是均匀分布最原始的雏形。你可能看出来了,与伯努利分布不同的是,这 n 个出现的结果的概率都是相同的。

一个随机变量 X 为均匀分布是指密度函数如下:

f(x)=1ba<ab<

下图为均匀分布的密度图的样子:

这里写图片描述

咱们可以看出来均匀分布的密度图是个矩形,这也就是为啥均匀分布的昵称是矩形分布。

对于均匀分布来说

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值