对于概率论数字特征的理解



数字特征概述

  在我们学习概率论的时候,很多时候我们不能深刻理解概率论中的数字特征所具有的含义,本文章尝试去帮助读者理解一些术语、概念。
  
  什么是数字特征?要回答这个问题,先得弄清楚什么是特征。特征是一个客体或一组客体特性的抽象结果。特征是用来描述概念的。任一客体或一组客体都具有众多特性,人们根据客体所共有的特性抽象出某一概念,该概念便成为了特征。而数字特征是对于数字的一种抽象方式,不同的抽象方式表现数字不同方面的数字特征(如,均值表现平均水平,方差表示离散程度)。从信息的角度来说,特征化(抽象)是压缩信息的一种方式。

  为何会有数字特征?特征化是人们压缩数据的一种方式,它能够反映一些群体的某方面的特点。举个简单的例子,校长去某个班调查学生的学习水平,他不太可能去查看询问每个人的成绩(那样子是十分耗时的一件事情)。所以我们将班级的成绩信息进行压缩,压缩成均值,众数,标准差等,以此来为校长提供其所关心的平均水平,成绩差异程度等。

  在数字特征的构造中,统一量纲 是一个十分重要的原则,下面的各个的数字特征中都会有所体现。下图说明,各个数字特征之间可以进行的运算
图1:(未涉及协方差,相关系数)

  • 一些 不同随机变量的同一数字特征是可比较的。
  • 一些 同一随机变量的不同数字特征是可比较的。

      数字特征之间的可比性
      

区分概率论与统计学(参考)
【知乎】概率论与统计学的关系是什么?


随机变量

  要想理解数字特征,弄清楚随机变量这一个概念是十分重要的。



常见数字特征

  本小节主要介绍概率论中常见的一些数字特征,并且说明其直观的物理意义。这里只讨论离散型随机变量的数字特征。


数学期望(均值)

  在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。是最基本的数学特征之一。它反映随机变量平均取值的大小。其公式如下:

E(X)=k=1xk×pk

xk :表示观察到随机变量 X 的样本的值。
pk : 表示 xk 发生的概率。

  数学期望反映的是平均水平。通过它,我们能够了解一个群体的平均水平(比如说,一个班平均成绩80)。但另外一个方面,它所包含的信息也是十分有限的,首先是个体信息被压缩了,其次如果单纯看期望的话,是看不出样本的数量。(平均成绩为80,在1人班和100人班的含义是不一样的)
  通过这个问题想说明,在刻画群体特征的时候,多个数字特征配合才能达到效果。(上面的例子:可以是 期望 + 数量


方差

  (variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究方差即偏离程度有着重要意义。
  方差( D(X) Var(X) )计算公式如下:
  

D(X)=Var(X)=E{ [XE(X)]2}

X :表示随机变量。
E(X) : 表示X的期望。
D(X) : 是 每个样本值与全体样本值的平均数之差平方值的平均数

公式逐步解释: [XE(X)] —> [XE(X)]2 —> E{ [XE(X)]2}

[XE(X)] 是计算随机变量中各个值与期望的距离(反映的是以 E(X) 为基准计算的偏差)。但是只是将偏差进行求和,可能导致结果为0的情况(会产生离散程度较高,评价却为0的情况)。

平方 [XE(X)]2 可避免上述情况发生,但问题依据存在,不同的随机变量(比如,X,Y)之间在此级别是无法进行比较的,因为X,Y的数量空间是不同的(X可能有3个值,Y可能有1000个值),进而导致不具有可比性。
E{ [XE(X)]2} 则是将数量空间进行了统一,使得不同随机变量的方差具有了可比性

ps : 方差的性质这里就不介绍了,可查看概率书籍。


标准差

  标准差也是用于衡量一组数据的离散程度的。公式如下,可以看出标准差( σ(X) 表示 )于随机变量 X 处于同一量纲下,这为 X 以及 σ(X) 在同一公式中计算提供了很好的支持。
  

σ(X)=D(X)

D(X) : 表示随机变量X的方差。
   方差与标准差有何区别呢?(下面两个例子来自知乎: 有了方差为什么需要标准差?
  
   标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点。
  
  再举个例子,从正态分布中抽出的一个样本落在[μ-3σ, μ+3σ]这个范围内的概率是99.7%,也可以称为“正负3个标准差”。如果没有标准差这个概念,我们使用方差来描述这个范围就略微绕了一点。万一这个分布是有实际背景的,这个范围描述还要加上一个单位,这时候为了方便,人们就自然而然地将这个量单独提取出来了。


协方差

  前面一直在探讨单个随机变量(1维),但是事实上当我们考察一个群体的时候,往往事物的属性是多方面的(多维),这里只考察2维情况,形式如: (X,Y)
  
   (X,Y) 的意思这类事物具有两个方面的属性,更进一步来说,一个样本有X,Y两方面的值,体现在数据库中,有两列(X列,Y列)。当X,Y这两个属性出现在同一类事物中的时候,我们很自然想到X,Y之间有某种关系,但是如何来刻画这种关系呢,这就是本节想要介绍的。
  
   (X,Y) 是2维的,只考虑1维会无法从整体把握问题。而如果进行关联分析,有时候却需要对维度拆分来进行研究,这就引出了下面的协方差公式:
  

Cov(X,Y)=E{ [XE(X)][YE(Y)]}

Cov(X,Y) : 表示随机变量X,Y的协方差。(2维因素)
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值