【学习笔记】对方差的理解

对方差的理解

1. 单个随机变量 X X X 的方差

假设有1次伯努利试验,成功记为1,概率为 p p p;失败记为0,概率为 1 − p 1-p 1p ,即:

ValueProbability
1 p p p
0 1 − p 1-p 1p

根据定义易得:
E ( X ) = 1 ⋅ p + 0 ⋅ ( 1 − p ) = p V a r ( X ) = p ( 1 − p ) 2 + ( 1 − p ) ( 0 − p ) 2 = p ( 1 − p ) E(X) = 1 \cdot p + 0 \cdot (1-p) = p \\ Var(X) = p(1-p)^2 + (1-p)(0-p)^2 = p(1-p) E(X)=1p+0(1p)=pVar(X)=p(1p)2+(1p)(0p)2=p(1p)
也就是说,我每进行一次伯努利试验,就是这个随机变量 X X X 每发生一次,我可能得到的 Value 的期望为 p p p, 方差为 p ( 1 − p ) p(1-p) p(1p)

2. 随机过程 ξ \xi ξ 的方差

假设现在进行 n n n 次伯努利实验,每次成功的概率为 p p p,失败的概率为 1 − p 1-p 1p

也就是说,随机过程 ξ \xi ξ n n n 个独立同分布的随机变量 X X X组成,有 ξ = [ X 1 , X 2 , . . . , X n ] \xi = [X_1, X_2, ..., X_n] ξ=[X1,X2,...,Xn]

这时候有:
E ( ξ ) = E ( X 1 ) + E ( X 2 ) + . . . + E ( X n ) = n p V a r ( ξ ) = V a r ( X 1 ) + V a r ( X 2 ) + . . . + V a r ( X n ) = n p ( 1 − p ) E(\xi) = E(X_1) + E(X_2) + ... + E(X_n) = np \\ Var(\xi) = Var(X_1) + Var(X_2) + ... + Var(X_n) = np(1-p) E(ξ)=E(X1)+E(X2)+...+E(Xn)=npVar(ξ)=Var(X1)+Var(X2)+...+Var(Xn)=np(1p)
"This similarly follows from the fact that the variance of a sum of independent random variables is the sum of the variances.(来源:维基百科) " —— 独立的随机变量 和的方差=方差的和

3. 给定一个已知序列的方差

假设现在给定一个0-1序列: X = [ x 1 , x 2 , . . . , x n ] X=[x_1, x_2, ... , x_n] X=[x1,x2,...,xn],其中 x i ∈ { 0 , 1 } x_i \in \{0,1\} xi{0,1}。同时我们假设已知 1 出现的次数为 k k k,则 0 出现的次数就为 n − k n-k nk

同样根据定义容易得:
E ( X ) = 1 n ∑ i = 1 n x i = k n E(X) = \frac{1}{n}\sum_{i=1}^{n}x_i = \frac{k}{n} E(X)=n1i=1nxi=nk
这里得到的期望值 k n \frac{k}{n} nk 就对应了前面的 p p p 值,即成功的次数( k k k)除以总得次数就( n n n)是我们成功的概率( p p p)。这个似乎没什么问题,很符合我们的预期。

下面再看下方差:
V a r ( X ) = 1 n ∑ i = 1 n k ⋅ ( 1 − k n ) 2 + ( n − k ) ⋅ ( 0 − k n ) 2 = k n ( 1 − k n ) Var(X) = \frac{1}{n} \sum_{i=1}^{n}k\cdot(1-\frac{k}{n})^2 + (n-k)\cdot(0-\frac{k}{n})^2 = \frac{k}{n}(1-\frac{k}{n}) Var(X)=n1i=1nk(1nk)2+(nk)(0nk)2=nk(1nk)
k n \frac{k}{n} nk 替换成 p p p ,你会发现,这里的方差居然等于1. 中单个随机变量 X X X 的方差 p ( 1 − p ) p(1-p) p(1p), 而不等于 2. 中随机过程 ξ \xi ξ 的方差 n p ( 1 − p ) np(1-p) np(1p)

这个一开始让我非常困惑,因为我把这个已知的0-1序列当成了一个二项分布,结果我发现根据定义算出来的方差直接用二项分布方差公式得到的方差 居然不一样(后者是前者的 n n n倍,后者仿佛成了前者的SSE)。

用一个表格直观对比下:

期望方差
随机变量 X X X p p p p ( 1 − p ) p(1-p) p(1p)
随机过程 ξ \xi ξ n p np np n p ( 1 − p ) np(1-p) np(1p)
已知序列 X X X p p p p ( 1 − p ) p(1-p) p(1p)

终于我想清楚了他们之间的区别:

  • 已知的一个0-1序列 不能当成 二项分布来计算方差,

  • 因为二项分布是一个分布,是一个随机过程,它的结果是不确定、不知道的,它的方差计算公式同时考虑了 [ 1 , 0 , 0 , 1 , . . . ] [1,0,0,1,...] [1,0,0,1,...] [ 0 , 1 , 0 , 1 , . . . ] [0,1,0,1,...] [0,1,0,1,...] 的情况,这两种情况对于过程来说是不一样的;但是这两种情况单独来看的话,其期望和方差都是一样的。

  • 已知的一个0-1序列应该看作是,这个二项分布所产生的一种可能情况,它仅仅是随机过程的其中一条样本轨道而已。它的方差就是我们平常理解的方差,反映了这组序列的离散程度。

  • 或许应该这样理解:已知的一个0-1序列应该是单个随机变量 X X X 的多次观测样本,同时随着观测次数越多,得到的统计值(包括期望和方差)就和真实的 X X X 的越接近,所以 3. 和 1. 的计算结果才是一致的。

  • 最小二乘法的思想,通过最小话误差来寻找数据的最佳拟合,这里的误差为SSE(sum of squared error),就是用每一个观测值减去拟合值(就是我们要寻找的真实值)的平方再求和。并且可以证明使SSE最小的最佳拟合值就是期望。所以其实 SSE=方差×样本数 (未修正版)。

  • 再从另一个角度来看:给定一个0-1序列,现在我要预测下一个到达的样本是0还是1。我采取的方法是,我先统计已知序列里有多少个1( k k k),多少个0( n − k n-k nk),然后我得到了1的比率是 k / n k/n k/n ,然后这个值就是我预测下一个到达样本是1的概率。这时候我的预测误差SSE将是最小的:
    S S E = ∑ i = 1 k ( x i − E ( X ) ) 2 SSE = \sum_{i=1}^{k}(x_i - E(X))^2 SSE=i=1k(xiE(X))2


后续补充:

  • 突然发现期望也有类似的现象, 2. 中随机过程 ξ \xi ξ 的期望 也乘了 n n n ,分析是类似的。
  • 所以再强调一次:不要把一个已知的0-1序列当成是一个二项分布,不要用二项分布的计算公式来计算已知序列的期望和方差!
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值