了解前的热身—几个概念你需要弄懂~
随机事件:在一定条件下,可能发生,也可能不发生的事件
随机变量:用以量化随机事件的函数
随机变量又主要包括两种类型:
1.离散随机变量
2.连续随机变量
概率分布: 是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布。
学习概率分布的方法:
1.有什么用→如何检验→计算概率→python实现
离散型概率分布:
· 伯努利分布
1.有什么用?
对于只有两个结果的事件,用以分析其发生的概率,是概率分布的基础
2.如何检验?
做一次事情,只有成功和失败两种结果.
每次事件成功或者失败的概率相等.
3.如何计算概率
概率即为给定的发生概率p或者失败概率1-p
4.代码实现
· 二项分布
1.有什么用?
简单理解就是多个相互独立的伯努利事件的概率分布,这时我们想知道成功k次的概率是多少
2.如何检验:
a.做某件事情的次数是固定的,次数用n表示,n次事件相互独立
b.每一次事件有两个可能的结果
c.每一次成功的概率相等
3.如何计算?
4.代码实现
· 几何分布
1.有什么用?
在n次伯努利试验中,求得试验k次才得到第一次成功的机率。
2.如何检验?
a.做某件事情的次数是固定的,次数用n表示,n次事件相互独立
b.每一次事件有两个可能的结果
c.每一次成功的概率相等
3.如何计算?
4.代码实现
· 泊松分布
1.有什么用?
某个时间范围内,发生某件事k次的概率是多少?
2.如何检验?
a.事件相互独立
b.任意相同的时间范围内,事件发生的概率相同
3.如何计算?
给出时间范围内,某件事发生的平均次数是u
求这段时间内,发生k次事的概率:
4.代码实现
连续型概率分布
· 正态分布
1)定义:概率分布满足中间高、两边低的“钟形曲线”的就是正态分布
曲线越高,也就代表着这个区间的概率越大,曲线下的面积就相当于概率。
2)平均值和标准差
从此图可以看出:
1)概率密度曲线在均值处达到最大,并且对称;
2)均数的大小决定了曲线的位置,标准差的大小决定了曲线的胖瘦,标准差越小,意味着大多数变量值离均数的距离越短,因此大多数值都紧密地聚集在均数周围。
3)绝大多数数据处于3个标准差以内,所以如果某个数据超出了3个标准差,可以判定为异常值,在数据清洗环节清除。
3)查正态表求概率
step1:确定概率范围 P(k < 1.05)
step2:求标准分
step3:查正态分布表得到概率。
· 幂律分布
这种分布是自然界中的一种常见现象。譬如地震的大小,通常震级越小发生的频率越大,震级越大发生的频率就越小。以震级为自变量,以其发生的频率(或概率)为因变量,符合(负)幂函数。
如何避免偏差
1.样本偏差
2.幸存者偏差
3.概率偏见
4.信息茧房