概率统计学习

本文深入探讨概率统计中的随机事件与随机变量,包括古典概型、条件概率、全概率公式和贝叶斯公式。接着介绍数理统计的基础概念,如样本、统计量和描述性分析。此外,文章还涵盖了常见的离散分布,如二项分布、泊松分布,以及正态分布,以及方差分析在检验分类变量对因变量影响的应用。
摘要由CSDN通过智能技术生成

01随机事件与随机变量

关键词:随机现象、随机试验E、相同条件重复进行、 样本空间、样本点、随机事件、必然事件、不可能事件

 主要性质:

1、对于任一事件A,均有

2、对于两个事件A和B,若A属于B,则 

3、对于任意两个事件A和B,有 

古典概型:将掷骰子游戏进行推广,设随机事件E的样本空间中只有有限个样本点,即

n为样本点总数。每个样本点出现是等可能的,并且每次实验有且仅有一个样本点发生,则称这类现象为古典概型。若事件A包含m个样本点,则事件A的概率定义为:

古典概型示例:假设有k个不同颜色的球,每个球以同样的概率1/L落到L个格子(L>=k)的每个中,且每个格子可容纳任意多个球。求下列事件概率:

A、指定的k个格子中各有一个球 

B、存在k个格子,其中各有一个球

首先明确两个事件的样本空间(每个球任意落到L个格子中均为L个格子中选取k个的可重复排列,即L的k次方 。因为每个球可以平均地落入到L个格子中的任一个,并且每一个格子中可落入任意多个球。

明确样本空间后理解A、B事件的差异,为格子是指定还是存在。 事件A所含基本结果数为:k个球在指定的L个格子的全排列,即k的阶乘.;事件B的基本事件需要考虑组合概率。分两步进行,因为L个格子可以是任意选取的,故可先从L个格子中任意选k个出来,共种。对于每种选定的k个格子,按上述各有一个球的推论,则有个基本结果,故事件B含有

 个基本结果。

拓展学习:生日问题 ——求k个同班同学没有两人生日相同的概率。事件B即为所求。第一步:k个生日是任意取得;第二步:k个人落入这k个生日日期中的基本事件结果为。样本空间为每个人都等可能地落入365个生日日期中,即365的k次方。对立事件为k个同学中至少两个人同一天过生日的概率。 关于此问题的拓展阅读

def factorial(n):
    if n==0:
        return 1;
    else:
        return (n*factorial(n-1))

l_fac=factorial(365);
l_k_fac=factorial(365-40);
l_k_exp=365**40

P_B=l_fac/(l_k_fac*l_k_exp)

print("事件B的概率为:",P_B)
print("40个同学中⾄至少两个⼈人同⼀一天过⽣生⽇日的概率是:",1 - P_B)

 条件概率:

 全概率公式和贝叶斯公式:

由条件概率可得到概率的乘法公式:

全概率公式

根据全概率公式和概率乘法公式,可得贝叶斯公式

随机变量:随机变量及其分布、离散型随机变量、常见的离散型分布、随机变量的数字特征

常见的离散型分布:伯努利实验、二项分布

随机变量的数字特征:期望、方差(自相关性和自相关系数)

 

02数理统计与描述性分析

关键词:总体、个体、样本、样本容量、随机变量、随机样本、样本观测值

  • 样本具有两重性,即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量,因为抽样是随机的。一般地,用表示随机样本,它们取到的值记为,称为样本观测值。

常用的统计量:样本均值、样本方差、k阶样本原点矩、k阶样本中心距、顺序统计量
数据集中趋势的度量:

平均数:

中位数:

频数、众数

数据离散趋势的度量:

方差 标准差、极差、变异系数

分布特征:离散变量与连续变量、概率函数、分布函数、正态分布、偏度与峰度

样本偏度系数:

样本峰度系数:

 

03常见分布与假设检验

常见分布:二项分布、泊松分布、正态分布、几何分布、负二项分布

1、二项分布需满足:试验次数是固定的;每次试验都是独立的;对于每次试验成功的概率都是一样的;

二项分布的例子:销售电话成功的次数;一批产品中有缺陷的产品数量;掷硬币正面朝上的次数;在一袋糖果中取糖果吃,拿到红色包装的次数

2、泊松分布特征:所考察的事件在任意两个长度相等的区间里发生一次的机会均等;

所考察的事件在任何一个区间里发生与否和在其他区间里发生与否没有相互影响,即是独立的 ;

泊松分布需要满足的条件:试验次数趋向于无穷大;单次事件发生的概率p趋向于0;np是一个有限的数值;

泊松分布的例子:

一定时间段内,某航空公司接到的订票电话数;

一定时间内,到车站等候公交汽车的人数;

一匹布上发现的瑕疵点的个数;

一定页数的书刊上出现的错别字个数。

一个服从泊松分布的随机变量X,在具有比率参数的一段固定时间间隔内,事件发生次数为i的概率为

 二项分布、泊松分布、正态分布的关系

 其他离散性随机分布:

几何分布

负二项分布

超几何分布

连续型分布:

均匀分布

 正态分布:也叫高斯分布,为对称分布,概率密度呈现钟摆的形状,概率密度函数为

 指数分布:广泛用于描述一个特定事件发生所需要的时间,概率密度函数为:指数分布具有无记忆性。

后续内容还包括常见概率分布的python实现和假设检验 

假设检验:在总体的分布函数完全未知或只知其形式,不知其参数的情况,为了推断总体的某些未知特性,提出某些关于总体的假设

统计量的选择:最常用的统计检验包括回归检验、比较检验、关联检验

04方差分析

方差分析主要研究分类变量作为自变量时,对因变量的影响是否是显著的

单因素(组间)方差分析:组间因子;因变量;自变量;均衡设计;非均衡设计 ;组内因子;单因素组内方差分析;重复测量方差分析;主效应;交互效应;混淆因素;干扰变数;协变量;协方差分析;

当设计包含两个甚至更多的因子时,便是因素方差分析设计。如:双因素方差分析、三因素方差分析。因子设计包括组内和组间因子,又称作混合模型方差分析

 单因素方差分析示例:

接下来,我们使用方差分析的方法去看不同小麦品种的产量是否有显著差异

 因素A的各水平的高低优劣,取决于其理论平均ai的大小。我们关心ai是否全相同,即因素A对所考察的指标Y有无影响(因素A的效应是否显著)。

SS分为两部分:表示随机误差的影响;表示因素A的各水平理论平均值ai不同带来的影响

 双因素方差分析

考虑多个指标对观察值的影响就会用到多因素方差分析。

以田间实验为例,我们设有两个因素A、B,分别有k,l个水平,A的水平i与B的水平j的组合记为(i,j),其实验结果记为Yij,i=1,..k  ,  j=1,..,l 统计模型为:

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值