线性变换
书中给了一个新的情境:在原来的基础上,老虎机的奖励翻5倍,但是拉一次杆的赌本从1美元变成了2美元。
下面是新的概率分布:
y | -2 | 23 | 48 | 73 | 98 |
---|---|---|---|---|---|
P(Y=y) | 0.977 | 0.008 | 0.008 | 0.006 | 0.001 |
之前的收益分布的期望和方差分别是“-0.77”和“2.6971”,那么现在呢?
E
(
Y
)
=
(
−
2
)
∗
0.977
+
23
∗
0.008
+
.
.
.
+
98
∗
0.001
=
−
0.85
V
a
r
(
Y
)
=
∑
(
Y
−
μ
)
2
=
(
−
2
+
0.85
)
2
∗
0.977
+
.
.
.
+
(
98
+
0.850
)
2
∗
0.001
=
67.4275
E(Y) = (-2)*0.977+23*0.008+...+98*0.001 \\ =-0.85 \\ Var(Y)= \sum(Y-\mu)^2 \\ =(-2+0.85)^2*0.977 + ... + (98+0.850)^2*0.001 \\ =67.4275
E(Y)=(−2)∗0.977+23∗0.008+...+98∗0.001=−0.85Var(Y)=∑(Y−μ)2=(−2+0.85)2∗0.977+...+(98+0.850)2∗0.001=67.4275
期望稍微下降了一点,因此从长期来看,我们每届可望赔0.85美元;方差增大,这表示从长期看来,我们有可能在这台老虎机上赔更多的钱,但确定性更小。
E(X)与E(Y)之间存在线性关系
新旧收益其实相互关联,每一局的赌本上涨到2美元,赢金则是原来的5倍,它们的期望和方差也存在关系。我们可以看下面:
我们可以将以上公式推广至任意随机变量,若随机变量为X:
E
(
a
X
+
b
)
=
a
E
(
x
)
+
b
V
a
r
(
a
X
+
b
)
=
a
2
V
a
r
(
X
)
E(aX+b) = aE(x)+b \\ Var(aX+b) = a^2 Var(X)
E(aX+b)=aE(x)+bVar(aX+b)=a2Var(X)
这就是所谓的线性变换,因为X发生的是线性变化—即基础概率保持不变,当数值变为新值,其形式为:aX+b。
其实也很好理解,假设X, Y = a X + b Y=aX+b Y=aX+b,a和b是常量。每个 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn为X具体的取值,自然地,对于每个 y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn, y i = a x i + b y_i=ax_i+b yi=axi+b。
概率分布如下图所示:
x | x 1 x_1 x1 | x 2 x_2 x2 | … | x n x_n xn |
---|---|---|---|---|
y | y 1 y_1 y1 | y 2 y_2 y2 | … | y n y_n yn |
P(X=x) | P ( x 1 ) P(x_1) P(x1) | P ( x 2 ) P(x_2) P(x2) | … | P ( x n ) P(x_n) P(xn) |
P(Y=y) | P ( x 1 ) P(x_1) P(x1) | P ( x 1 ) P(x_1) P(x1) | … | P ( x 1 ) P(x_1) P(x1) |
X的期望为
E
(
X
)
=
∑
x
P
(
X
=
x
)
E(X)=\sum xP(X=x)
E(X)=∑xP(X=x)。则,
E
(
Y
)
=
E
(
a
X
+
b
)
=
∑
(
a
x
+
b
)
∗
P
(
x
)
=
∑
a
x
∗
P
(
x
)
+
∑
b
P
(
x
)
=
a
[
x
1
P
(
x
1
)
+
.
.
.
x
n
P
(
x
n
)
]
+
b
(
P
(
x
1
)
+
.
.
.
+
P
(
x
n
)
)
=
a
∑
x
P
(
x
)
+
b
=
a
E
(
x
)
+
b
E(Y)=E(aX+b) \\ =\sum (ax+b)*P(x) \\ =\sum ax*P(x) + \sum bP(x) \\ =a[x_1P(x_1)+...x_nP(x_n)] + b(P(x_1)+...+P(x_n)) \\ =a\sum xP(x) + b \\ =aE(x)+b
E(Y)=E(aX+b)=∑(ax+b)∗P(x)=∑ax∗P(x)+∑bP(x)=a[x1P(x1)+...xnP(xn)]+b(P(x1)+...+P(xn))=a∑xP(x)+b=aE(x)+b
X的方差为
V
a
r
(
X
)
=
E
(
X
−
E
(
x
)
)
2
=
∑
(
x
−
E
(
x
)
)
2
P
(
X
=
x
)
Var(X) = E(X-E(x))^2= \sum(x-E(x))^2P(X=x)
Var(X)=E(X−E(x))2=∑(x−E(x))2P(X=x)。则,
V
a
r
(
Y
)
=
E
(
Y
−
E
(
Y
)
)
2
=
∑
(
y
−
E
(
Y
)
)
2
P
(
Y
=
y
)
=
∑
[
a
x
+
b
−
(
a
E
(
x
)
+
b
)
]
2
P
(
X
=
x
)
=
∑
[
a
(
x
−
E
(
x
)
)
]
2
P
(
X
=
x
)
=
∑
a
2
∗
(
x
−
E
(
x
)
)
2
P
(
X
=
x
)
=
a
2
∑
(
x
−
E
(
x
)
)
2
P
(
X
=
x
)
=
a
2
V
a
r
(
x
)
Var(Y) = E(Y-E(Y))^2 \\ = \sum(y-E(Y))^2P(Y=y) \\ = \sum[ax+b-(aE(x)+b)]^2P(X=x) \\ = \sum[a(x-E(x))]^2P(X=x) \\ = \sum a^2*(x-E(x))^2 P(X=x) \\ = a^2 \sum (x-E(x))^2P(X=x) \\ = a^2 Var(x)
Var(Y)=E(Y−E(Y))2=∑(y−E(Y))2P(Y=y)=∑[ax+b−(aE(x)+b)]2P(X=x)=∑[a(x−E(x))]2P(X=x)=∑a2∗(x−E(x))2P(X=x)=a2∑(x−E(x))2P(X=x)=a2Var(x)
问:方差中的b哪里去了?
答:在概率分布中增加了一个常数仅对期望有影响,对整个方差没有影响。在变量中增加一个常数不过是将概率分布移动一下,分布的形状依然不变。(也可以从上面的推导看出来,b被减掉了)也就是说,期望以b为幅度进行偏移,但由于形状保持不变,所以方差也保持不变。
问:我很惊奇,方差会乘以一个 a 2 a^2 a2,这是为什么?
答:变量乘以一个常数意味着所有基础数据都乘以该常数。在计算方差的过程中要计算各基础数据的平方。由于基础数据都乘以a,因此最终结果是方差乘以 a 2 a^2 a2。(很好理解啦, V a r ( X ) = E ( X − E ( x ) ) 2 = ∑ ( x − E ( x ) ) 2 P ( X = x ) Var(X) = E(X-E(x))^2= \sum(x-E(x))^2P(X=x) Var(X)=E(X−E(x))2=∑(x−E(x))2P(X=x),每个x乘以a,期望E(X)也乘以a,再相减后平方,直觉地肯定方差会是平方倍)
小知识: E ( f ( X ) ) = ∑ f ( x ) P ( X = x ) E(f(X))=\sum f(x)P(X=x) E(f(X))=∑f(x)P(X=x),由期望公式直接推导出
例题:
独立观测值
导言
假设有一台非常简单的老虎机,其概率分布X如下表所示:
X | -1 | 5 |
---|---|---|
P(X=x) | 0.9 | 0.1 |
为了求出2X的概率分布,只需将X乘以2,由于潜在收益翻倍,因此基础数据发生了变化。
X | -2 | 10 |
---|---|---|
P(2X=2x) | 0.9 | 0.1 |
进行线性变换后,所有的概率都保持不变,但可能出现的数值(2X)发生变化—发生变换的是数值而非概率。这些可能数值的数目仍然不变。
如果想在这台老虎机上玩两局,就需要从头开始计算概率分布,这时要考虑两局赌局可能出现的所有结果。
W | -2 | 4 | 10 |
---|---|---|---|
P(W=w) | 0.81 | 0.18(0.09+0.09) | 0.01 |
这一次概率和数值都变了,那么如何求期望与方差呢?
如果多玩几种其他游戏,则数值和概率都发生变化,就连可能数值的数目(由2变3)也会发生变化。这时不可能只对数值进行转化,而概率的计算会迅速变得错综复杂。
每一次拉杆为一个独立观测值
在赌博机上连玩多局赌局时,每一局称为一个事件,每一局的结果称为一个观测值。每一个观测值具有相同的期望和方差,但观测值互有差别,不可能每一局的收益都一样。
我们需要用某种方法对不同赌局或观测值进行区分,如果有X代表老虎机收益的概率分布,则把第一个观测值称为 X 1 X_1 X1,把第二个观测值称为 X 2 X_2 X2。
X 1 X_1 X1和 X 2 X_2 X2都具有和X一样的概率、可能值、期望和方差,也就是说,虽然它们是互不相干的观测值,并且结果也不同,但它们的概率分布相同。
我们希望求出两局老虎机赌局的期望和方差,实际上就是要求 X 1 + X 2 X_1+X_2 X1+X2的期望和方差。
观测值速算法
期望
E ( X 1 + X 2 ) = E ( X 1 ) + E ( X 2 ) = E ( X ) + E ( X ) = 2 E ( X ) E(X_1+X_2) = E(X_1)+E(X_2) = E(X)+E(X)=2E(X) E(X1+X2)=E(X1)+E(X2)=E(X)+E(X)=2E(X)
如果我们已知两个观测值的期望,则将E(X)乘以2即可。可以将整个结论推广至多个观测值,若我们想求出n个观测值的期望,则可以按下式计算:
E
(
X
1
+
X
2
+
.
.
.
X
n
)
=
n
E
(
X
)
E(X_1+X_2+...X_n)=nE(X)
E(X1+X2+...Xn)=nE(X)
方差
V a r ( X 1 + X 2 ) = V a r ( X 1 ) + V a r ( X 2 ) = V a r ( X ) + V a r ( X ) = 2 V a r ( X ) Var(X_1+X_2) = Var(X_1)+Var(X_2)=Var(X)+Var(X)=2Var(X) Var(X1+X2)=Var(X1)+Var(X2)=Var(X)+Var(X)=2Var(X)
与上面相同,多个观测值的时候同理:
V
a
r
(
X
1
+
X
2
+
.
.
.
X
n
)
=
n
V
a
r
(
X
)
Var(X_1+X_2+...X_n)=nVar(X)
Var(X1+X2+...Xn)=nVar(X)
问:难道 E ( X 1 + X 2 ) + E ( 2 X ) E(X_1+X_2)+E(2X) E(X1+X2)+E(2X)不一样?
答:不一样。E(2X)表示将变量的基础数据翻倍,然后求期望和方差。 E ( X 1 + X 2 ) E(X_1+X_2) E(X1+X2)表示你观测到了X的两个独立结果,需要求其综合期望。
问:这么说 X 1 X_1 X1和 X 2 X_2 X2是一样的?
答:它们的概率分布相同,但它们本身是不同的结果(或者说观测值)。它们的实际结果可以不一样。
例题,前面2个我无法理解,后面3个大家应该能理解。
我猜测:第一个的意思应该为:超大杯咖啡的咖啡量和X是线性关系,比如aX+b。第二个的意思应该为:每天多喝一杯咖啡,每喝一杯咖啡的量X和其他一杯咖啡的量是独立的。