离散型数据可以指定确切数值的概率分布,但并非所有数值型数据都是离散的,也有连续数据的概率分布,最典型的便是正态分布。
1. 基本概念
- 概率密度函数(PDF):描述连续型随机变量的概率分布的函数,通常用 f(x) 表示。
- 概率密度:概率密度函数在某一点处的取值,表示该点附近的概率密度。
2.概率密度函数
2.1 定义
概率密度函数(Probability Density Function, PDF)是描述连续型随机变量的概率分布的函数,通常用 f(x) 表示。
概率 = 面积
2.2 性质
-
非负性:对于所有的 x,概率密度函数的取值都是非负的,即 f(x)≥0。
-
积分为1:概率密度函数在整个定义域上的积分等于1,即∫−∞∞f(x)dx=1。
-
描述概率:概率密度函数描述的是随机变量落在某个区间内的概率,而不是具体的概率值。具体来说,对于连续型随机变量,概率密度函数在某个区间上的积分表示该区间内事件发生的概率。
-
密度性:概率密度函数的值并不表示某个具体点的概率,而是在该点附近的概率密度。因此,概率密度函数的值在某一点处并不一定等于该点的概率
3. 正态分布 N(μ,σ2)
正态分布之所以被称为正态,是因为它的形态看起来呵护理想,在遇到测量值之类的大量连续数据时,你通过很期望数据符合这种形态
3.1 概念
正态分布是一种连续型的概率分布,其曲线呈钟形,中心对称,两边尾部逐渐趋近于水平轴,分布的均值、中位数和众数均相等。
3.2 参数 μ,σ2
正态分布由两个参数完全描述:均值(μ)和标准差(σ),记作N(μ,σ2)。
μ指出曲线的中央位置,σ2决定了分布的形状和分散程度,这也意味着σ2越大,正态分布曲线越扁平、越宽。值得指出的是,在正态分布中,概率密度始终不可能为0,因为不管多少难发生但多少有些可能。
3.3 计算
- 确定分布与范围:如果正态分布适用于所遇到的情况,那看看是否能求出均值和标准差。因为只有先得知这些,我们才能只有正态分布的特性。
- 标准化为N(0,1):利用标准分来将其他非标准正态分布转化成N(0,1)标准正态分布。
先移动均值:
然后收窄:
-
3、利用概率表查找概率:通过标准分,利用标准正态概率表可以查找任何z值,进而查出相应概率P(Z<z)。
3.4 概率密度函数
3.5 性质
- 正态分布是连续型分布,其曲线在 (−∞,+∞)(−∞,+∞) 范围内无穷延伸。
- 正态分布的均值、中位数和众数相等,位于曲线的中心。
- 68-95-99.7法则:在正态分布中,约有68%的数据落在均值的一个标准差范围内,约有95%的数据落在两个标准差范围内,约有99.7%的数据落在三个标准差范围内。