矩母函数的暴力拆解,看完即懂==>>>
一篇文章看透母函数、矩、矩母函数联系与区别
矩母函数?是《概率论》里面一个重要的定义,对统计学和当前AI底层的算法原理理解都是非常有帮助的。全文基于自己的理解,仅供社区朋友共同学习,文章不会罗列公式,对小白绝对友善。温馨提示:数学大佬可以直接跳过不看哦~
导读
矩母函数,英文全称为Moment Generating Function,简称MGF。以下全文将基于自己对概率论的理解对矩母函数进行简单的分析,尽努力地把母函数、矩、矩母函数以及特征函数解析清楚。这是一次随机过程的作业,不出意外,我是第一次看到这几个名词,不理解但是觉得很酷。先翻看百度百科以及维基百科的解释吧,生成函数即母函数,是组合数学中尤其是计数方面的一个重要理论和工具。生成函数有普通型生成函数和指数型生成函数两种,其中普通型用的比较多。形式上说,普通型生成函数用于解决多重集的组合问题,而指数型母函数用于解决多重集的排列问题。看完这解释,我觉得感觉自己要上天了,叹息自己水平不够理解不了百度高屋建瓴的诠析。经过这几天的查资料文献,现在做一下整理吧。接下来我将正式解释母函数、矩、矩母函数的联系与区别,我相信,看完以后至少会使得我们对矩母函数的理解有一个具体的模型概念。
Party1:母函数
对于母函数 。首先下面我会通过它的提出、母函数的公式以及母函数的应用这三个方面来解释母函数。
任何事物的提出都是有背景的,对于母函数的提出,我先举个生活中的小例子:手上有两个骰子,问:两个骰子投掷出的点数相加等于6时有多少种可能?明显口算就可以轻松得出答案,组合可能为(1,5)、(2,4)、(3,3)、(4,2)、(5,1),共5种。这个例子非常简单,小孩子也能回答。好,我把例子稍微改动一下:现在我手上有100个骰子,全部骰子点数相加等于360点,问有几种可能?这个手算可能会无聊而且耗时,但是实质上我们还是很容易地列出所有的组合可能的,毕竟跟上面的例子相比较仅仅是数目加倍罢了,也可以利用计算机编程很快得出答案。说了这么久,有些人会觉得不屑,来终极目标来了。现在投掷m个骰子,要求所有骰子点数相加等于n,问:一共有几种可能。这问题罗列法是没办法解决的,毕竟切入点也找不到。为了解释母函数的提出背景,我先用特殊推导一般的方法。令m=2,明显这时2≤n≤12,问题就是列出□+□=n的所有组合情况。那好,理解了情景,接下来我们把两个骰子组合的点数相加看做一个策略问题,相当于先投一个,再投一个,并且用
X
1
、
X
2
…
X
6
X ^1、X^2…X^6
X1、X2…X6分别表示单个骰子的所有可能情况。不妨把每个骰子点数的所有可能加起来然后再相乘试下,得到
(
X
1
+
X
2
+
X
3
+
X
4
+
X
5
+
X
6
)
∗
(
X
1
+
X
2
+
X
3
+
X
4
+
X
5
+
X
6
)
(X^1+X^2+X^3+X^4+X^5+X^6 )*(X^1+X^2+X^3+X^4+X^5+X^6 )
(X1+X2+X3+X4+X5+X6)∗(X1+X2+X3+X4+X5+X6)
=
X
2
+
2
X
3
+
3
X
4
+
4
X
5
+
5
X
6
+
6
X
7
+
⋯
X
12
,
=X^2+2X^3+3X^4+4X^5+5X^6+6X^7+⋯X^{12},
=X2+2X3+3X4+4X5+5X6+6X7+⋯X12,
仔细观察,不难发现当结果中
X
6
X^6
X6前面的系数 5 恰好就是上面第一个例子的组合可能,不妨大胆猜想,
X
c
X^c
Xc前面的系数就是所有骰子的组合可能数,明显,经过验证,其他的情况也遵循这一规律,到此为止,母函数的提出背景以及母函数的提出意义已经解释完毕,当然这里我并没有对母函数公式做推导,这只是我对母函数公式做一个说明罢了。这里,我们回到最初的问题:m个骰子投掷出n点有几种可能?应用母函数概念得,
(
X
1
+
X
2
+
X
3
+
X
4
+
X
5
+
X
6
)
∗
(
X
1
+
X
2
+
X
3
+
X
4
+
X
5
+
X
6
)
*
…
∗
(
X
1
+
X
2
+
X
3
+
X
4
+
X
5
+
X
6
)
(X^1+X^2+X^3+X^4+X^5+X^6 )*(X^1+X^2+X^3+X^4+X^5+X^6 )*…*(X^1+X^2+X^3+X^4+X^5+X^6 )
(X1+X2+X3+X4+X5+X6)∗(X1+X2+X3+X4+X5+X6)*…∗(X1+X2+X3+X4+X5+X6)
=
□
X
1
+
□
X
2
+
□
X
3
+
□
X
4
+
□
X
5
+
⋯
=□X^1+□X^2+□X^3+□X^4+□X^5+⋯
=□X1+□X2+□X3+□X4+□X5+⋯
展开得到:
G
(
X
)
=
a
1
X
1
+
a
2
X
2
+
a
3
X
3
+
⋯
+
a
n
X
n
+
⋯
G(X)=a_1X^1+a_2X^2+a_3X^3+⋯+a_nX^n+⋯
G(X)=a1X1+a2X2+a3X3+⋯+anXn+⋯,
G
(
x
)
G(x)
G(x)则称为系数
a
1
、
a
2
、
a
3
、
…
、
a
n
、
…
a_1、a_2、a_3、…、a_n、…
a1、a2、a3、…、an、…的母函数。
Party2:矩
对于矩。首先引入“中国福利彩票”作为线索去讲解,福利彩票我相信大多数人都买过,2块钱,仔细观察,中国的福利彩票真的太良心了,不仅仅是用2块钱可以中5块、100块、甚至500万,最重要是这彩票的价格根本不变啊。目前猪肉的价格热度讨论很是剧烈,那就以猪肉近十年的统计结果为例,2008到2018年猪肉价格基本在14块钱左右波动,在2016年的时候也曾经涨到25块钱;同样,再看下一线城市近十年的房价走势,2008年平均1w每平方米左右,然后指数爆炸式上涨,到了2017年最低都3w每平方米,高的甚至达到8w每平方米,这物价增长速度简直惊人。回到福利彩票,单价一直都是2块钱,又可以中大奖,够良心了吧。对于彩票,我们得知,5块、100块和500万的中奖几率分别为10%、0.5%和0.00001%,这样我们可以把中奖金额-中奖概率做一个杠杆天平量化,天平中间0刻度表示中奖概率为0,两端刻度表示中奖概率为1,杠杆上挂的“砝码”重量表示中奖金额。根据物理公式得知
m
左
∗
l
左
=
m
右
∗
l
右
m_{左}*l_{左}=m_{右}*l_{右}
m左∗l左=m右∗l右
虽然左边500w的“砝码”比右边5块的“砝码”重,但是
l
左
≪
l
右
l_{左}≪l_{右}
l左≪l右,当
m
左
=
500
w
,
l
左
=
0.00001
m_{左}=500w,l_{左}=0.00001%,L_{右}=1
m左=500w,l左=0.00001时,根据上面物理公式知,求得
m
右
=
0.5
m_{右}=0.5
m右=0.5块。也就是说,中奖概率为0.00001%的500w,实际上就是等于中奖概率为1的 0.5块钱,简单来说,不确定的500w就仅仅等于确定的0.5块钱。接着这个分析,把所有的不确定中奖金额转化成确定的中奖金额有:
500
w
∗
0.00001
500w*0.00001
500w∗0.00001%+100*0.5%+5*10%=1.5元,也就是说,每买2块钱的彩票我们能确定的最多只能中1.5块钱。回过头来看,那刚才说的彩票良心压根一点都不良心啊!每买2块钱就意味着我们将亏0.5元,买的越多,亏得也越多,简直黑心啊。在《概率论》中,矩的定义为:
E
[
x
k
]
=
∑
i
=
1
n
P
i
x
k
,
k
=
1
,
2
,
3...
E[x^{k}]=\sum_{i=1}^{n}P_{i}x^{k},k=1,2,3...
E[xk]=i=1∑nPixk,k=1,2,3...
则称为
x
的
k
阶
原
点
矩
,
简
称
k
x的k阶原点矩,简称k
x的k阶原点矩,简称k阶矩。
P
i
相
当
于
前
面
的
杠
杆
刻
度
长
,
x
k
P_i相当于前面的杠杆刻度长,x^k
Pi相当于前面的杠杆刻度长,xk 这里暂且作为一个整体,相当于杠杆上面挂的“砝码”重量,从公式来看,求事件的矩即是相当于求该事件的期望。
矩母函数的矩可以对事件作一评价量化。例如,评价一个人一辈子过得怎样。有两个数据,假设以时间段的无纲量数值为量化值:A前10年取得10成就,(10,80)区间取得30成就,(80,100)区间取得10成就;而B前10年取得20成就,(10,80)区间取得5成就,(80,100)区间取得925成就。根据矩的概念,当阶数
k
=
1
k=1
k=1时,
成
就
A
=
∑
i
=
1
n
P
i
x
k
=
10
∗
10
+
70
∗
30
+
20
∗
10
=
2400
成就_A=\sum_{i=1}^{n}P_{i}x^{k}=10*10+70*30+20*10=2400
成就A=∑i=1nPixk=10∗10+70∗30+20∗10=2400 点;同理,
成
就
B
=
∑
i
=
1
n
P
i
x
k
=
10
∗
20
+
70
∗
5
+
20
∗
925
=
2400
成就_B=\sum_{i=1}^{n}P_{i}x^{k}=10*20+70*5+20*925=2400
成就B=∑i=1nPixk=10∗20+70∗5+20∗925=2400 点。从1阶矩的结果来看,虽然B中间漫长的70年期间仅仅只有5点的成就,但是却跟A最后的人生总成就结果一样。然后不妨看下阶数
k
=
2
k=2
k=2时,
成
就
A
=
∑
i
=
1
n
P
i
(
x
k
)
2
=
10
∗
1
0
2
+
70
∗
3
0
2
+
20
∗
1
0
2
=
152000
成就_A=\sum_{i=1}^{n}P_{i}{(x^k)}^2=10*10^2+70*30^2+20*10^2=152000
成就A=∑i=1nPi(xk)2=10∗102+70∗302+20∗102=152000 点;同理,
成
就
B
=
∑
i
=
1
n
P
i
(
x
k
)
2
=
10
∗
2
0
2
+
70
∗
5
2
+
20
∗
92
5
2
=
396500
成就_B=\sum_{i=1}^{n}P_{i}{(x^k)}^2=10*20^2+70*5^2+20*925^2=396500
成就B=∑i=1nPi(xk)2=10∗202+70∗52+20∗9252=396500 点。从2阶矩维度来看,两人的结果竟然差了2.6倍左右。所以,在量化人一辈子的生活状况可以分不同的维度来看,1阶矩结果我们可以了解到两人一生的获得成果差不多,但从2阶矩维度我们就可以了解A、B两个人一辈子里面更为细节的内容,暂且理解为生活的坎坷程度吧,明显看出来B相对于A这一辈子来说落差要更大。
Party3:矩母函数
对于矩母函数。总结上面分析得知,母函数的定义为:
G
(
X
)
=
a
1
X
1
+
a
2
X
2
+
a
3
X
3
+
⋯
+
a
n
X
n
+
⋯
,
G(X)=a_1 X^1+a_2 X^2+a_3 X^3+⋯+a_n X^n+⋯,
G(X)=a1X1+a2X2+a3X3+⋯+anXn+⋯,
G
(
x
)
则
称
为
a
1
、
a
2
、
a
3
、
…
、
a
n
、
…
G(x)则称为a_1 、a_2 、a_3 、…、a_n 、…
G(x)则称为a1、a2、a3、…、an、…的母函数;
矩的定义为:
E
[
x
k
]
=
∑
i
=
1
n
P
i
x
k
,
k
=
1
,
2
,
3...
E[x^{k}]=\sum_{i=1}^{n}P_{i}x^{k},k=1,2,3...
E[xk]=i=1∑nPixk,k=1,2,3...
接着根据《概率论》对矩母函数的定义:
M
(
t
)
=
E
(
e
t
x
)
=
∑
i
=
1
n
p
(
x
i
)
e
t
x
=
p
(
x
1
)
e
t
x
1
+
p
(
x
2
)
e
t
x
2
+
⋯
+
p
(
x
n
)
e
t
x
n
.
M(t)=E(e^{tx} )=\sum_{i=1}^{n}p(x_i )e^{tx}=p(x_1 ) e^{tx_1 }+p(x_2 ) e^{tx_2 }+⋯+p(x_n)e^{tx_n }.
M(t)=E(etx)=i=1∑np(xi)etx=p(x1)etx1+p(x2)etx2+⋯+p(xn)etxn.
现在,我们以面带点,先跟着讲解的思维来推进。(你可以理解以下所做的都是基于恰好假设,坚持一下,后面你会觉得非常妙的!)
N
o
w
,
Now,
Now,先看连续情况下,对
M
(
t
)
=
E
(
e
t
x
)
M(t)=E(e^{tx} )
M(t)=E(etx)求导得,
M
′
(
t
)
=
d
E
(
e
t
x
)
d
t
=
d
∫
−
∞
∞
e
t
x
f
(
x
)
d
x
d
t
M^{'}(t)=\frac{dE(e^{tx})}{dt}=\frac{d\int_{-\infty }^{\infty }e^{tx}f(x)dx }{dt}
M′(t)=dtdE(etx)=dtd∫−∞∞etxf(x)dx
⟶
积
分
微
分
可
交
换
∫
−
∞
∞
d
d
t
e
t
x
f
(
x
)
d
x
\overset{积分微分可交换}{\longrightarrow}\int_{-\infty }^{\infty }\frac{d}{dt}e^{tx}f(x)dx
⟶积分微分可交换∫−∞∞dtdetxf(x)dx
⟶
对
t
求
导
,
与
f
(
x
)
无
关
∫
−
∞
∞
x
e
t
x
f
(
x
)
d
x
\overset{对t求导,与f(x)无关}{\longrightarrow}\int_{-\infty }^{\infty }xe^{tx}f(x)dx
⟶对t求导,与f(x)无关∫−∞∞xetxf(x)dx
O
k
,
∗
曙
光
即
将
来
临
∗
Ok,*曙光即将来临*
Ok,∗曙光即将来临∗->>因此,当
t
=
0
t=0
t=0时,
M
′
(
0
)
=
∫
−
∞
∞
x
f
(
x
)
d
x
=
E
(
x
)
M^{'} (0)=\int_{-\infty }^{\infty }xf(x)dx=E(x)
M′(0)=∫−∞∞xf(x)dx=E(x)
看出来了吗,这就是上面 矩 概念的1阶矩啊!!
因此,t=0,当k=2时:
M
′
′
(
0
)
=
∫
−
∞
∞
x
2
f
(
x
)
d
x
=
E
(
x
2
)
M^{''} (0)=\int_{-\infty }^{\infty }x^2f(x)dx=E(x^2)
M′′(0)=∫−∞∞x2f(x)dx=E(x2)
.
.
.
...
...
以此类推,
t
=
0
t=0
t=0时,
M
(
t
)
M(t)
M(t)的
k
k
k 阶导就等于
E
(
X
)
E(X)
E(X)的
k
k
k 阶矩。离散的情况大同小异,这里我直接给出来吧:
M
′
(
0
)
=
∑
i
=
1
n
x
f
(
x
)
d
x
=
E
(
x
)
M^{'} (0)=\sum _{i=1 }^{n }xf(x)dx=E(x)
M′(0)=i=1∑nxf(x)dx=E(x)
看到这里,想必我们已经对 矩母函数 有了很好地理解了,想继续深入学习的话可以自行找资料补充,后续有时间的话我会继续跟大家分享交流的。