CSDN:http://blog.csdn.net/kicilove/article/
前言
假设你是个大学老师。 在检查了一周的作业后,对学生进行了打分。 让录分员创建一个包含所有学生成绩的电子表格,要求是只含分数不含学生姓名等信息。
于是乎,录分员一个大粗心,漏录了好几个分数,介个时候不知道把谁给漏录了。来看看怎么解决这个问题吧。
一种方法是可视化已录数据,并从中发现某些数据中的趋势。
上面这个图就是画出来的数据的频率分布图。 可以从图的边缘隐约看到一条光滑的曲线可以用来定义我们的数据,但是我们也得注意到一个异常,有个段的柱条缺半截似的,也就是这一段分数范围内的频率异常低。所以最好是能有些值来把这个短半截给补上。
这就是一个现实生活中用数据分析解决问题的一个例子。对任何科学家而言,不管你是个学生或者是专家,分布是一个必知的概念。因为这是分析和统计推断的基础。
概率概念给了我们计算它的方法,分布才是帮我们看清数据背后的暗泉涌动。
目录:
- 常见数据类型
- 分布类型
- 伯努利分布(Bernoulli Distribution)
- 均匀分布(Uniform Distribution)
- 二项分布(Binomial Distribution)
- 正态分布(Normal Distribution)
- 泊松分布(Poisson Distribution)
- 指数分布(Exponential Distribution)
- 分布之间的关系
- 测一测
一、常见数据类型
在正式的解释分布之前,我们先来看一看平时遇到的数据。数据可大致分为离散型数据和连续型数据。
离散型数据
离散型数据顾名思义就是只取几个特定的值。例如:当你掷骰子的时候,结果只有1,2,3,4,5,6,不会出现类似1.5,2.5。
连续型数据
在一个给定的范围内,连续型数据可以取任意值。这个范围可以是有限的或者是无穷的。例如:一个人的体重或者身高,可以取值54kg,54.4kg,54.33333kg等等都没有问题。
下面就开始介绍分布的类型。
二、分布类型
伯努利分布(Bernoulli Distribution)
首先从最简单的分布开始,伯努利分布实际上是一个听起来最容易理解的分布。
伯努利分布一次实验有两个可能的结果,比如1代表success及0代表failure。随机变量 X 一个取值为1并代表成功,成功概率为 p ,一个取值为0表示失败,失败概率为
这里,概率分布函数为 px(1−p)1−x ,其中 x∈(0,1) ,我们也可以写成如下形式:
成功和失败的概率没必要相同,也就是没必要都是0.5,但是这俩概率加和应该为1,比如可以是下面的图:
这个图就是 p(success)=0.15,p(failure)=0.85 。
下面说一下随机变量的期望,一个分布的期望就是这个分布的均值。服从伯努利分布的随机变量 X 的期望值就是:
服从伯努利分布的随机变量的方差是:
还有许多伯努利分布的例子,比如说明天是否会下雨,今天会不会去健身,明天乒乓球比赛是不是会赢。
均匀分布(Uniform Distribution)
当你掷骰子的时候,结果出现1到6中的任何一个,而任何一个结果出现的概率都是相同的,这就是均匀分布最原始的雏形。你可能看出来了,与伯努利分布不同的是,这 n 个出现的结果的概率都是相同的。
一个随机变量
下图为均匀分布的密度图的样子:
咱们可以看出来均匀分布的密度图是个矩形,这也就是为啥均匀分布的昵称是矩形分布。
对于均匀分布来说