概率论相关内容

1 随机事件

1.1 随机事件及相关概念

随机实验满足以下三个条件:
1.可以在相同条件下重复进行;
2.结果有多种可能性,并且所有可能结果事先已知;
3.作一次试验究竟哪个结果出现,事先不能确定。
样本空间:称随机试验的所有可能结果组成的集合;
样本点:试验的每一个可能结果;
随机事件:样本空间中满足一定条件的子集为随机事件,随机事件在随机试验中可能出现也可能不出现;
必然事件:在试验中,称一个事件发生是指构成该事件的一个样本点出现。由于样本空间包含了所有的样本点,所以在每次试验中,它总是发生,因此称为必然事件;
不可能事件:空集不包含任何样本点,且在每次试验中总不发生,所以称为不可能事件。

1.2 概率

一件事发生的可能性大小就是概率,即 概率是对随机事件发生的可能性的度量。

1.3 古典概率模型

称具有以下两个特征的随机试验模型为古典概率模型
1)有限性,随机试验只有有限个可能结果。
2)等可能行,每个结果发生的可能性大小相同。
在这里插入图片描述
所谓计算某一事件的概率,其实就是考虑这个事件包括的所有情况以及总体包含的事件的数目。

1.4 条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。

1.5 全概率公式和贝叶斯公式

全概率就是表示达到某个目的,有多种方式(或者造成某种结果,有多种原因),问达到目的的概率是多少(造成这种结果的概率是多少)?
全概率公式:
设事件L1、L2…是一个完备事件组,则对于任意一个事件C,若有如下公式成立:
在这里插入图片描述
那么就称这个公式为全概率公式。
已知达到某种目的了,判断到达这种目的的某种途径的概率是多少?
贝叶斯公式就是当已知结果,问导致这个结果的某种原因的可能性是多少?执果索因!
贝叶斯公式:在已知条件概率和全概率的基础上,贝叶斯公式是很容易计算的:
在这里插入图片描述
发生的可能性大小,故称为先验概率;当试验产生了结果,再对各种“原因”概率的新认识,故称为后验概率。

2 随机变量

2.1 随机变量及其分布

随机变量是定义在样本空间上,取值在实数域上的函数。由于它的自变量是随机试验的结果,而随机试验结果的出现具有随机性,因此,随机变量的取值也具有一定的随机性。这是随机变量与普通函数的不同之处。
描述一个随机变量,不仅要说明它能够取那些值,而且还要关心它取这些值的概率。因此,接下来引入随机变量的分布函数的概念。
随机变量的分布函数定义:
设X是随机变量,对任意实数x,事件{X<x}的概率P{X<x}称为随机变量X的分布函数。记为F(x), 即F(x)=P{X<x}。

2.2 离散型随机变量

随机变量的全部可能取值只有有限多个或可列无穷多个,称为离散型随机变量。

2.3 常见的离散型分布

伯努利实验,二项分布:一个随机试验只有两种可能的结果,试验可以独立重复进行n次。

2.4 随机变量的数字特征

数学期望:代表了随机变量取值的平均值,是一个重要的数字特征。
方差:是用来描述随机变量取值相对于均值的离散程度的一个量,也是非常重要的数字特征。
协方差和相关系数:协方差和相关系数都是描述随机变量X与随机变量Y之间的线性程度。
基本上我们都会用相关系数来衡量两个变量之间的相关程度。相关系数在-1到1之间,小于零表示负相关,大于零表示正相关。
绝对值表示相关度的大小。越接近1,相关度越大。

3 数理统计概念

3.1 基本概念

在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。
值得注意的是,样本具有两重性,即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量,因为抽样是随机的。

3.2 统计量与抽样

数理统计的任务是采集和处理带有随机影响的数据,或者说收集样本并对之进行加工,以此对所研究的问题作出一定的结论,这一过程称为为统计推断。在统计推断中,对样本进行加工整理,实际上就是根据样本计算出一些量,使得这些量能够将所研究问题的信息集中起来。这种根据样本计算出的量就是下面将要定义的统计量,因此,统计量是样本的某种函数。

3.3 常用的统计量

  1. 样本均值
    通常用样本均值来估计总体分布的均值和对有关总体分布均值的假设作检验。
  2. 样本方差
    常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设作检验。
  3. k阶样本中心矩
    通常用样本的k阶中心矩来估计总体分布的k阶中心矩。
  4. 顺序统计量
    X服从[0,1]上的均匀分布,对X进行5次独立采样,求最大的样本的分布。
    计算x为最大的样本的概率,首先它要在某一次被取到(一个有5次机会),其次其他4个样本都比x要小,所以
    在这里插入图片描述
    次序量k取其他值时情况类似,都是计算n*两个独立事件(1. x被取到,2. 其他变量的取值使得x是第k个)的乘积。

4 描述性统计

4.1 数据集中趋势的度量

  1. 平均数
    是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。
  2. 中位数
    是指在一组数据,按顺序排列后,居于中间位置的数。中位数描述数据中心位置的数字特征,对于对称分布的数据,均值与中位数比较接近;对于偏态分布的数据,均值与中位数不同。中位数不受异常值的影响,具有稳健性。
  3. 频数
    指同一观测值在一组数据中出现的次数(掷骰子中,一共掷了20次,出现数字5的次数)
  4. 众数
    就是一组数据中,出现次数最多的那个数(几个数)
    均值 vs 中位数 vs 众数
    在这里插入图片描述
  5. 百分位数
    百分位数是中位数的推广,将数据按从小到大排列后,对于 0 <p < 1 它的p分位点定义为其中,[np]表示np的整数部分。所以,0.5分位数(第50百分位数)就是中位数。

4.2 数据离散趋势的度量

表示数据分散(离散,差异)程度的特征量有方差,标准差,极差以及变异系数等。

  1. 方差
    用来计算每一个变量(观察值)与总体均数之间的差异。实际工作中,总体均数难以得到时,应用样本统计量代替总体参数。
  2. 标准差
    样本方差的开平方成为样本标准差。
  3. 极差
    数据越分散,极差越大。
  4. 变异系数
    是刻画数据相对分散性的一种度量。变异系数只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率或单位风险。
    当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,变异系数可以消除测量尺度和量纲的影响。
  5. 四分位差
    样本上、下四分位数之差称为四分位差(或半极差)。 R_1 = Q_3 - Q_1 它也是度量样本分散性的重要数字特征,特别对于具有异常值的数据,它作为分散性具有稳健性。

4.3 分布特征

  1. 离散变量与连续变量
    离散型随机变量是指其数值只能用自然数或整数单位计算的则为离散变量。例如, 班级人数,电脑台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得。
  2. 分布函数
  3. 正态分布,也称高斯分布

4.4 偏度与峰度

偏度: 也称为偏态,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。直观看来就是密度函数曲线尾部的相对长度。**偏度刻画的是分布函数(数据)的对称性。**关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。

  1. 正态分布的偏度为0,两侧尾部长度对称。
  2. 左偏:
    若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态;
    此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长;
    因为有少数变量值很小,使曲线左侧尾部拖得很长;
  3. 右偏:
    bs>0称分布具有正偏离,也称右偏态;
    此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长;
    因为有少数变量值很大,使曲线右侧尾部拖得很长;
    峰度(peakedness;kurtosis):说明的是分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。峰度刻画的是分布函数的集中和分散程度。

5 常见分布与假设检验

5.1 一般随机变量

  • 随机变量的两种类型
    根据随机变量可能取值的个数分为离散型(取值有限)和连续型(取值无限)两类。
  • 离散型随机变量
    对于离散型随机变量,使用概率质量函数,二项分布,泊松分布
  • 连续型随机变量
    对于连续型随机变量,使用概率密度函数。连续型随机变量的特点在于取任何固定值的概率都为0,因此讨论其在特定值上的概率是没有意义的,应当讨论其在某一个区间范围内的概率,这就用到了概率密度函数的概念。
    对于连续型随机变量,通常还会用到累积分布函数,是积分模式

5.2 常见分布

  • 二项分布
    二项分布可以认为是一种只有两种结果(成功/失败)的单次试验重复多次后成功次数的分布概率
    试验次数是固定的
    每次试验都是独立的
    对于每次试验成功的概率都是一样的
  • 泊松分布
    泊松分布是用来描述泊松试验的一种分布,满足以下两个特征的试验可以认为是泊松试验
    所考察的事件在任意两个长度相等的区间里发生一次的机会均等
    所考察的事件在任何一个区间里发生与否和在其他区间里发生与否没有相互影响,即是独立的
  • 二项分布,泊松分布,正态分布的关系
    这三个分布之间具有非常微妙的关联。
    当n很大,p很小时,如n ≥ 100 and np ≤ 10时,二项分布可以近似为泊松分布。
    当λ很大时,如λ≥1000时,泊松分布可以近似为正态分布。
    当n很大时,np和n(1-p)都足够大时,如n ≥ 100 , np ≥10,n(1-p) ≥10时,二项分布可以近似为正态分布
  • 其他离散型随机分布
    几何分布:考虑独立重复试验,几何分布描述的是经过k次试验才首次获得成功的概率
    负二项分布:考虑独立重复试验,负二项分布描述的是试验一直进行到成功r次的概率
    超几何分布:超几何分布描述的是在一个总数为N的总体中进行有放回地抽样。

5.3 连续型分布

  • 均匀分布:均匀分布指的是一类在定义域内概率密度函数处处相等的统计分布。
  • 正态分布:正态分布,也叫做高斯分布,是最为常见的统计分布之一,是一种对称的分布,概率密度呈现钟摆的形状。正态分布在现实生活有着非常多的例子,这一点可以从中心极限定理来解释,中心极限定理说的是一组独立同分布的随机样本的平均值近似为正态分布,无论随机变量的总体符合何种分布。
  • 指数分布:指数分布通常被广泛用在描述一个特定事件发生所需要的时间,在指数分布随机变量的分布中,有着很少的大数值和非常多的小数值。关于指数分布还有一个有趣的性质的是指数分布是无记忆性的,假定在等候事件发生的过程中已经过了一些时间,此时距离下一次事件发生的时间间隔的分布情况和最开始是完全一样的,就好像中间等候的那一段时间完全没有发生一样,也不会对结果有任何影响
  • 其他连续分布:Gamma分布:常用来描述某个事件总共要发生n次的等待时间的分布;威布尔分布:常用来描述在工程领域中某类具有“最弱链”对象的寿命。

5.4 假设检验

5.4.1 基本概念

假设检验问题时统计推断中的一类重要问题,在总体的分布函数完全未知或只知其形式,不知其参数的情况,为了推断总体的某些未知特性,提出某些关于总体的假设,这类问题被称为假设检验。

5.4.2 基本步骤

一个假设检验问题可以分为5步,无论细节如果变化,都一定会遵循这5个步骤。

  1. 陈述研究假设,包含原假设(null hypothesis)和备择假设(alternate hypothesis)
  2. 为验证假设收集数据
  3. 构造合适的统计测试量并测试
  4. 决定是接受还是拒绝原假设
  5. 展示结论

5.4.3 统计量的选择

选择合适的统计量是进行假设检验的关键步骤,最常用的统计检验包括回归检验(regression test),比较检验(comparison test)和关联检验(correlation test)三类。

  • 回归检验:回归检验适用于预测变量是数值型的情况,根据预测变量的数量和结果变量的类型又分为以下几种。
    在这里插入图片描述
  • 比较检验:v比较检验适用于预测变量是类别型,结果变量是数值型的情况,根据预测变量的分组数量和结果变量的数量又可以分为以下几种。
    在这里插入图片描述
  • 关联检验:关联检验常用的只有卡方检验一种,适用于预测变量和结果变量均为类别型的情况。
  • 非参数检验:此外,由于一般来说上述参数检验都需满足一些前提条件,样本之间独立,不同组的组内方差近似和数据满足正态性,所以当这些条件不满足的时候,我们可以尝试用非参数检验来代替参数检验。
    在这里插入图片描述

5.4.4 两类错误

事实上当我们进行假设检验的过程中是存在犯错误的可能的,并且理论上来说错误是无法完全避免的。根据定义,错误分为两类,一类错误(type I error)和二类错误(type II error)。

一类错误:拒绝真的原假设

二类错误:接受错误的原假设

一类错误可以通过α值来控制,在假设检验中选择的 α(显著性水平)对一类错误有着直接影响。α可以认为是我们犯一类错误的最大可能性。以95%的置信水平为例,a=0.05,这意味着我们拒绝一个真的原假设的可能性是5%。从长期来看,每做20次假设检验会有一次犯一类错误的事件发生。

二类错误通常是由小样本或高样本方差导致的,二类错误的概率可以用β来表示,和一类错误不同的是,此类错误是不能通过设置一个错误率来直接控制的。对于二类错误,可以从功效的角度来估计,首先进行功效分析(power analysis)计算出功效值1-β,进而得到二类错误的估计值β。

一般来说这两类错误是无法同时降低的,在降低犯一类错误的前提下会增加犯二类错误的可能性,在实际案例中如何平衡这两类错误取决于我们更能接受一类错误还是二类错误。

6 方差分析

方差分析(ANOVA)又称“变异数分析”或“F检验”,是R.A.Fister发明的,用于两个及两个以上样本均数差别的显著性检验。
 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。

经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。

1. 多个样本均数间两两比较

多个样本均数间两两比较常用q检验的方法,即Newman-kueuls法,其基本步骤为:建立检验假设–>样本均数排序–>计算q值–>查q界值表判断结果。

2. 多个实验组与一个对照组均数间两两比较

多个实验组与一个对照组均数间两两比较,若目的是减小第II类错误,最好选用最小显著差法(LSD法);若目的是减小第I类错误,最好选用新复极差法,前者查t界值表,后者查q’界值表。
基本思想:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
方差分析的应用条件
  应用方差分析对资料进行统计推断之前应注意其使用条件,包括:
  1. 可比性。若资料中各组均数本身不具可比性则不适用方差分析。
  2. 正态性。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。
  3. 方差齐性。即若组间方差不齐则不适用方差分析。多个方差的齐性检验可用Bartlett法,它用卡方值作为检验统计量,结果判断需查阅卡方界值表。
  方差分析主要用于:
  1. 均数差别的显著性检验;
  2. 分离各有关因素并估计其对总变异的作用;
  3. 分析因素间的交互作用;
  4. 方差齐性检验。
方差分析的主要内容
  根据资料设计类型的不同,有以下两种方差分析的方法:
  1. 对成组设计的多个样本均数比较,应采用完全随机设计的方差分析,即单因素方差分析。
  2. 对随机区组设计的多个样本均数比较,应采用配伍组设计的方差分析,即两因素方差分析。
  两类方差分析的基本步骤相同,只是变异的分解方式不同,对成组设计的资料,总变异分解为组内变异和组间变异(随机误差),即:SS总=SS组间+SS组内,而对配伍组设计的资料,总变异除了分解为处理组变异和随机误差外还包括配伍组变异,即:SS总=SS处理+SS配伍+SS误差。整个方差分析的基本步骤如下:
  1. 建立检验假设;H0:多个样本总体均数相等;H1:多个样本总体均数不相等或不全等。检验水准为0.05。
  2. 计算检验统计量F值;
  3. 确定P值并作出推断结果。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值