91-听说大家很喜欢篮球队-tang
学习任务
- 理论部分
- 离散型分布,连续型分布,python实现及可视化;
- 假设检验步骤及两类错误解读;
- 假设检验的python实战;
- 练习部分
- 做理论知识点的笔记;
- python实现常见分布,python实现假设检验;
知识点
-
一般随机变量:
-
随机变量的两种类型:按随机变量的可能取值划分
-
离散型随机变量:取值有限的随机变量
-
概率质量函数:描述离散型随机变量分布律的函数
假定离散型随机变量 X X X,共有 n n n个取值, X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn,那么 P ( X = X N ) ≤ 0 P(X=X_N)\le0 P(X=XN)≤0 ∑ 1 n P ( X = X n ) = 1 \sum_1^nP(X=X_n)=1 1∑nP(X=Xn)=1
-
PMF:probability mass function,即概率质量函数
- 二项分布
- 泊松分布
-
连续型随机变量:取值无限的随机变量
-
概率密度函数:描述连续性随机变量分布情况的函数
假定连续型随机变量 X X X, f ( X ) f(X) f(X)为概率密度函数,对于任意实数范围 [ a , b ] [a,b] [a,b],有 P { a ≤ X ≤ b } = ∫ a b f ( x ) d x P\{a \le X \le b\}=\int_a^bf(x)dx P{a≤X≤b}=∫abf(x)dx
-
PDF:probability density function,即概率密度函数
-
取任何固定值的概率都为0:连续型随机变量的特点;特定值上的概率没有意义,应当讨论其在某一个区间内的概率
- 均匀分布
- 正态分布
- 指数分布
-
累积分布函数:
对所有 x x x,累积分布函数有如下定义: F X ( x ) = P ( X ≤ x ) F_X(x)=P(X \le x) FX(x)=P(X≤x)
-
CDF:cumulative distribution function,即累积分布函数,数学上CDF是PDF的积分形式
-
概率问题转化为函数问题
分布函数 F ( x ) F(x) F(x)在点x处的函数值表示 X X X落在区间 ( − ∞ , x ] (−\infty,x] (−∞,x]内的概率,所以分布函数就是定义域为 R R R的一个普通函数,因此我们可以把概率问题转化为函数问题,从而可以利用普通的函数知识来研究概率问题,增大了概率的研究范围。
-
常见分布
-
离散型分布
-
二项分布:Binomial distribution,只有两种结果(成功/失败)的单次实验重复多次后成功次数的分布概率.
- 试验次数是固定的
- 每次试验都是独立的
- 对于每次试验成功的概率都是一样的
-
二项分布的例子
- 销售电话成功的次数
- 一批产品中有缺陷的产品数量
- 掷硬币正面朝上的次数
- 在一袋糖果中取糖果吃,拿到红色包装的次数
-
泊松分布:Poisson distribution,用来描述泊松实验的一种分布
- 试验次数n趋向于无穷大
- 单次事件发生的概率p趋向于0
- np是一个有限的数值
-
泊松试验:满足以下两个条件
- 所考察的事件在任意两个长度相等的区间里发生一次的机会均等
- 所考察的事件在任何一个区间里发生与否和在其他区间里发生与否没有相互影响,即是独立的
-
泊松分布的一些例子:
- 一定时间段内,某航空公司接到的订票电话数
- 一定时间内,到车站等候公交汽车的人数
- 一匹布上发现的瑕疵点的个数
- 一定页数的书刊上出现的错别字个数
-
比率参数:- 一个服从泊松分布的随变量 X X X,在具有比率参数(rate parameter) λ ( λ = n p ) λ (λ=np) λ(λ=np)的一段固定时间间隔内,事件发生次数为i的概率为 P { X = i } = e − λ i ! λ i P\{X=i\}=e^{-\lambda}\frac{i!}{\lambda^i} P{X=i}=e−λλii!
-
二项分布,泊松分布,正态分布的关系
- 当n很大,p很小时,如n ≥ 100 and np ≤ 10时,二项分布可以近似为泊松分布。
- 当λ很大时,如λ≥1000时,泊松分布可以近似为正态分布。
- 当n很大时,np和n(1-p)都足够大时,如n ≥ 100 , np ≥10,n(1-p) ≥10时,二项分布可以近似为正态分布。
-
其他离散型随机分布
- 几何分布:Geometric distribution,考虑独立重复实验,描述经过 k k k次实验才首次获得成功的概率, P { X = n } = ( 1 − p ) n − 1 p P\{X=n\}=(1-p)^{n-1}p P{X=n}=(1−p)n−1p
-
负二项分布:Negative binomial distribution,考虑重复独立实验,描述试验一直进行到成功r次的概率, P { X = n } = C n − 1 r − 1 p r ( 1 − p ) n − r P\{X=n\}=C_{n-1}^{r-1}p^r(1-p)^{n-r} P{X=n}=Cn−1r−1pr(1−p)n−r
-
超几何分布:Hypergeometric distribution,描述一个总数为N的总体进行有放回地抽样,其中在总体中k个元素属于一组,剩余N-k个元素属于另一组,假定从总体中抽取n次,其中包含x个第一组的概率为: P { X = n } = C k x C N − k n − x C N n P\lbrace X= n \rbrace = \frac {C_{k}^{x} C_{N-k}^{n-x}} {C_{N}^{n}} P{X=n}=CNnCkxCN−kn−x
-
连续型分布
-
均匀分布
-
在定义域内概率密度函数处处相等
-
均匀分布的一些例子
-
一个理想的随机数生成器
-
一个理想的圆盘以一定力度旋转后静止时的角度
-
正态分布
-
高斯分布
-
正态分布的一些例子
-
成人的身高
-
不同方向的气体分子的运动速度
-
测量物体质量时的误差
-
中心极限定理
-
指数分布
-
指数分布的一些例子
-
顾客到达一家店铺的时间间隔
-
从现在开始到发生地震的时间间隔
-
在产线上收到一个问题产品的时间间隔
-
指数分布是无记忆性的
-
其他连续分布
-
τ \tau τ分布
-
总共
-
威布尔分布
-
寿命
-
假设检验
-
在总体的分布函数完全未知或只知其形式,不知其参数的情况,为了推断总体的某些未知特性,提出某些关于总体的假设
-
基本步骤
-
陈述研究假设,包含原假设(null hypothesis)和备择假设(alternate hypothesis)
-
为验证假设收集数据
-
构造合适的统计测试量并测试
-
决定是接受还是拒绝原假设
-
展示结论
-
原假设的描述写成变量之间不存在某种差异,或不存在某种关联
-
备择假设则为存在某种差异或关联
-
抽样的数据要具有代表性
-
统计检验量有很多种类,但是所有的统计检验都是基于组内方差和组间方差的比较,如果组间方差足够大,使得不同组之间几乎没有重叠,那么统计量会反映出一个非常小的P值,意味着不同组之间的差异不可能是由偶然性导致的
-
P=0.05作为临界值
-
单侧检验
-
统计量的选择
-
回归检验
-
比较检验
-
关联检验
-
回归检验适用于预测变量是数值型的情况
-
比较检验适用于预测变量是类别型,结果变量是数值型的情况
-
卡方检验
-
适用于预测变量和结果变量均为类别型的情况
-
非参数检验
-
两类错误
-
存在犯错误的可能
-
理论上来说错误是无法完全避免
-
一类错误:拒绝真的原假设
-
二类错误:接受错误的原假设
-
α值
-
显著性水平
-
置信水平
-
由小样本或高样本方差导致的
-
β
-
功效
-
功效分析
-
功效值
-
一般来说这两类错误是无法同时降低的,在降低犯一类错误的前提下会增加犯二类错误的可能性
代码实现