一篇文章看透母函数、矩、矩母函数联系与区别

一篇文章看透母函数、矩、矩母函数联系与区别

矩母函数?是《概率论》里面一个重要的定义,对统计学和当前AI底层的算法原理理解都是非常有帮助的。全文基于自己的理解,仅供社区朋友共同学习,文章不会罗列公式,对小白绝对友善。温馨提示:数学大佬可以直接跳过不看哦~

导读

矩母函数,英文全称为Moment Generating Function,简称MGF。以下全文将基于自己对概率论的理解对矩母函数进行简单的分析,尽努力地把母函数、矩、矩母函数以及特征函数解析清楚。这是一次随机过程的作业,不出意外,我是第一次看到这几个名词,不理解但是觉得很酷。先翻看百度百科以及维基百科的解释吧,生成函数即母函数,是组合数学中尤其是计数方面的一个重要理论和工具。生成函数有普通型生成函数和指数型生成函数两种,其中普通型用的比较多。形式上说,普通型生成函数用于解决多重集的组合问题,而指数型母函数用于解决多重集的排列问题。看完这解释,我觉得感觉自己要上天了,叹息自己水平不够理解不了百度高屋建瓴的诠析。经过这几天的查资料文献,现在做一下整理吧。接下来我将正式解释母函数、矩、矩母函数的联系与区别,我相信,看完以后至少会使得我们对矩母函数的理解有一个具体的模型概念。

Party1:母函数

对于母函数 。首先下面我会通过它的提出、母函数的公式以及母函数的应用这三个方面来解释母函数。
  任何事物的提出都是有背景的,对于母函数的提出,我先举个生活中的小例子:手上有两个骰子,问:两个骰子投掷出的点数相加等于6时有多少种可能?明显口算就可以轻松得出答案,组合可能为(1,5)、(2,4)、(3,3)、(4,2)、(5,1),共5种。这个例子非常简单,小孩子也能回答。好,我把例子稍微改动一下:现在我手上有100个骰子,全部骰子点数相加等于360点,问有几种可能?这个手算可能会无聊而且耗时,但是实质上我们还是很容易地列出所有的组合可能的,毕竟跟上面的例子相比较仅仅是数目加倍罢了,也可以利用计算机编程很快得出答案。说了这么久,有些人会觉得不屑,来终极目标来了。现在投掷m个骰子,要求所有骰子点数相加等于n,问:一共有几种可能。这问题罗列法是没办法解决的,毕竟切入点也找不到。为了解释母函数的提出背景,我先用特殊推导一般的方法。令m=2,明显这时2≤n≤12,问题就是列出□+□=n的所有组合情况。那好,理解了情景,接下来我们把两个骰子组合的点数相加看做一个策略问题,相当于先投一个,再投一个,并且用 X 1 、 X 2 … X 6 X ^1、X^2…X^6 X1X2X6分别表示单个骰子的所有可能情况。不妨把每个骰子点数的所有可能加起来然后再相乘试下,得到
  
( X 1 + X 2 + X 3 + X 4 + X 5 + X 6 ) ∗ ( X 1 + X 2 + X 3 + X 4 + X 5 + X 6 ) (X^1+X^2+X^3+X^4+X^5+X^6 )*(X^1+X^2+X^3+X^4+X^5+X^6 ) (X1+X2+X3+X4+X5+X6)(X1+X2+X3+X4+X5+X6)

= X 2 + 2 X 3 + 3 X 4 + 4 X 5 + 5 X 6 + 6 X 7 + ⋯ X 12 , =X^2+2X^3+3X^4+4X^5+5X^6+6X^7+⋯X^{12}, =X2+2X3+3X4+4X5+5X6+6X7+X12,
    
仔细观察,不难发现当结果中 X 6 X^6 X6前面的系数 5 恰好就是上面第一个例子的组合可能,不妨大胆猜想, X c X^c Xc前面的系数就是所有骰子的组合可能数,明显,经过验证,其他的情况也遵循这一规律,到此为止,母函数的提出背景以及母函数的提出意义已经解释完毕,当然这里我并没有对母函数公式做推导,这只是我对母函数公式做一个说明罢了。这里,我们回到最初的问题:m个骰子投掷出n点有几种可能?应用母函数概念得,

( X 1 + X 2 + X 3 + X 4 + X 5 + X 6 ) ∗ ( X 1 + X 2 + X 3 + X 4 + X 5 + X 6 ) * … ∗ ( X 1 + X 2 + X 3 + X 4 + X 5 + X 6 ) (X^1+X^2+X^3+X^4+X^5+X^6 )*(X^1+X^2+X^3+X^4+X^5+X^6 )*…*(X^1+X^2+X^3+X^4+X^5+X^6 ) X1+X2+X3+X4+X5+X6X1+X2+X3+X4+X5+X6X1+X2+X3+X4+X5+X6
= □ X 1 + □ X 2 + □ X 3 + □ X 4 + □ X 5 + ⋯ =□X^1+□X^2+□X^3+□X^4+□X^5+⋯ =X1+X2+X3+X4+X5+

展开得到:
G ( X ) = a 1 X 1 + a 2 X 2 + a 3 X 3 + ⋯ + a n X n + ⋯ G(X)=a_1X^1+a_2X^2+a_3X^3+⋯+a_nX^n+⋯ G(X)=a1X1+a2X2+a3X3++anXn+ G ( x ) G(x) G(x)则称为系数 a 1 、 a 2 、 a 3 、 … 、 a n 、 … a_1、a_2、a_3、…、a_n、… a1a2a3an的母函数。

Party2:矩

对于矩。首先引入“中国福利彩票”作为线索去讲解,福利彩票我相信大多数人都买过,2块钱,仔细观察,中国的福利彩票真的太良心了,不仅仅是用2块钱可以中5块、100块、甚至500万,最重要是这彩票的价格根本不变啊。目前猪肉的价格热度讨论很是剧烈,那就以猪肉近十年的统计结果为例,2008到2018年猪肉价格基本在14块钱左右波动,在2016年的时候也曾经涨到25块钱;同样,再看下一线城市近十年的房价走势,2008年平均1w每平方米左右,然后指数爆炸式上涨,到了2017年最低都3w每平方米,高的甚至达到8w每平方米,这物价增长速度简直惊人。回到福利彩票,单价一直都是2块钱,又可以中大奖,够良心了吧。对于彩票,我们得知,5块、100块和500万的中奖几率分别为10%、0.5%和0.00001%,这样我们可以把中奖金额-中奖概率做一个杠杆天平量化,天平中间0刻度表示中奖概率为0,两端刻度表示中奖概率为1,杠杆上挂的“砝码”重量表示中奖金额。根据物理公式得知
m 左 ∗ l 左 = m 右 ∗ l 右 m_{左}*l_{左}=m_{右}*l_{右} ml=ml                 
  虽然左边500w的“砝码”比右边5块的“砝码”重,但是 l 左 ≪ l 右 l_{左}≪l_{右} ll,当 m 左 = 500 w , l 左 = 0.00001 m_{左}=500w,l_{左}=0.00001%,L_{右}=1 m=500w,l=0.00001时,根据上面物理公式知,求得 m 右 = 0.5 m_{右}=0.5 m=0.5块。也就是说,中奖概率为0.00001%的500w,实际上就是等于中奖概率为1的 0.5块钱,简单来说,不确定的500w就仅仅等于确定的0.5块钱。接着这个分析,把所有的不确定中奖金额转化成确定的中奖金额有: 500 w ∗ 0.00001 500w*0.00001 500w0.00001%+100*0.5%+5*10%=1.5元,也就是说,每买2块钱的彩票我们能确定的最多只能中1.5块钱。回过头来看,那刚才说的彩票良心压根一点都不良心啊!每买2块钱就意味着我们将亏0.5元,买的越多,亏得也越多,简直黑心啊。在《概率论》中,矩的定义为:
E [ x k ] = ∑ i = 1 n P i x k , k = 1 , 2 , 3... E[x^{k}]=\sum_{i=1}^{n}P_{i}x^{k},k=1,2,3... E[xk]=i=1nPixk,k=1,2,3...

则称为 x 的 k 阶 原 点 矩 , 简 称 k x的k阶原点矩,简称k xkk阶矩。 P i 相 当 于 前 面 的 杠 杆 刻 度 长 , x k P_i相当于前面的杠杆刻度长,x^k Pixk 这里暂且作为一个整体,相当于杠杆上面挂的“砝码”重量,从公式来看,求事件的矩即是相当于求该事件的期望。
  矩母函数的矩可以对事件作一评价量化。例如,评价一个人一辈子过得怎样。有两个数据,假设以时间段的无纲量数值为量化值:A前10年取得10成就,(10,80)区间取得30成就,(80,100)区间取得10成就;而B前10年取得20成就,(10,80)区间取得5成就,(80,100)区间取得925成就。根据矩的概念,当阶数 k = 1 k=1 k=1时, 成 就 A = ∑ i = 1 n P i x k = 10 ∗ 10 + 70 ∗ 30 + 20 ∗ 10 = 2400 成就_A=\sum_{i=1}^{n}P_{i}x^{k}=10*10+70*30+20*10=2400 A=i=1nPixk=1010+7030+2010=2400 点;同理, 成 就 B = ∑ i = 1 n P i x k = 10 ∗ 20 + 70 ∗ 5 + 20 ∗ 925 = 2400 成就_B=\sum_{i=1}^{n}P_{i}x^{k}=10*20+70*5+20*925=2400 B=i=1nPixk=1020+705+20925=2400 点。从1阶矩的结果来看,虽然B中间漫长的70年期间仅仅只有5点的成就,但是却跟A最后的人生总成就结果一样。然后不妨看下阶数 k = 2 k=2 k=2时, 成 就 A = ∑ i = 1 n P i ( x k ) 2 = 10 ∗ 1 0 2 + 70 ∗ 3 0 2 + 20 ∗ 1 0 2 = 152000 成就_A=\sum_{i=1}^{n}P_{i}{(x^k)}^2=10*10^2+70*30^2+20*10^2=152000 A=i=1nPi(xk)2=10102+70302+20102=152000 点;同理, 成 就 B = ∑ i = 1 n P i ( x k ) 2 = 10 ∗ 2 0 2 + 70 ∗ 5 2 + 20 ∗ 92 5 2 = 396500 成就_B=\sum_{i=1}^{n}P_{i}{(x^k)}^2=10*20^2+70*5^2+20*925^2=396500 B=i=1nPi(xk)2=10202+7052+209252=396500 点。从2阶矩维度来看,两人的结果竟然差了2.6倍左右。所以,在量化人一辈子的生活状况可以分不同的维度来看,1阶矩结果我们可以了解到两人一生的获得成果差不多,但从2阶矩维度我们就可以了解A、B两个人一辈子里面更为细节的内容,暂且理解为生活的坎坷程度吧,明显看出来B相对于A这一辈子来说落差要更大。

Party3:矩母函数

对于矩母函数。总结上面分析得知,母函数的定义为:
G ( X ) = a 1 X 1 + a 2 X 2 + a 3 X 3 + ⋯ + a n X n + ⋯ , G(X)=a_1 X^1+a_2 X^2+a_3 X^3+⋯+a_n X^n+⋯, G(X)=a1X1+a2X2+a3X3++anXn+
G ( x ) 则 称 为 a 1 、 a 2 、 a 3 、 … 、 a n 、 … G(x)则称为a_1 、a_2 、a_3 、…、a_n 、… G(x)a1a2a3an的母函数;
矩的定义为:
E [ x k ] = ∑ i = 1 n P i x k , k = 1 , 2 , 3... E[x^{k}]=\sum_{i=1}^{n}P_{i}x^{k},k=1,2,3... E[xk]=i=1nPixk,k=1,2,3...
接着根据《概率论》对矩母函数的定义:
M ( t ) = E ( e t x ) = ∑ i = 1 n p ( x i ) e t x = p ( x 1 ) e t x 1 + p ( x 2 ) e t x 2 + ⋯ + p ( x n ) e t x n . M(t)=E(e^{tx} )=\sum_{i=1}^{n}p(x_i )e^{tx}=p(x_1 ) e^{tx_1 }+p(x_2 ) e^{tx_2 }+⋯+p(x_n)e^{tx_n }. M(t)=E(etx)=i=1np(xi)etx=p(x1)etx1+p(x2)etx2++p(xn)etxn.
  现在,我们以面带点,先跟着讲解的思维来推进。(你可以理解以下所做的都是基于恰好假设,坚持一下,后面你会觉得非常妙的!)
   N o w , Now, Now,先看连续情况下,对 M ( t ) = E ( e t x ) M(t)=E(e^{tx} ) M(t)=E(etx)求导得,
M ′ ( t ) = d E ( e t x ) d t = d ∫ − ∞ ∞ e t x f ( x ) d x d t M^{'}(t)=\frac{dE(e^{tx})}{dt}=\frac{d\int_{-\infty }^{\infty }e^{tx}f(x)dx }{dt} M(t)=dtdE(etx)=dtdetxf(x)dx
⟶ 积 分 微 分 可 交 换 ∫ − ∞ ∞ d d t e t x f ( x ) d x \overset{积分微分可交换}{\longrightarrow}\int_{-\infty }^{\infty }\frac{d}{dt}e^{tx}f(x)dx dtdetxf(x)dx
⟶ 对 t 求 导 , 与 f ( x ) 无 关 ∫ − ∞ ∞ x e t x f ( x ) d x \overset{对t求导,与f(x)无关}{\longrightarrow}\int_{-\infty }^{\infty }xe^{tx}f(x)dx tf(x)xetxf(x)dx
O k , ∗ 曙 光 即 将 来 临 ∗ Ok,*曙光即将来临* Ok,->>因此,当 t = 0 t=0 t=0时,
M ′ ( 0 ) = ∫ − ∞ ∞ x f ( x ) d x = E ( x ) M^{'} (0)=\int_{-\infty }^{\infty }xf(x)dx=E(x) M(0)=xf(x)dx=E(x)

看出来了吗,这就是上面 概念的1阶矩啊!!
  因此,t=0,当k=2时:
M ′ ′ ( 0 ) = ∫ − ∞ ∞ x 2 f ( x ) d x = E ( x 2 ) M^{''} (0)=\int_{-\infty }^{\infty }x^2f(x)dx=E(x^2) M(0)=x2f(x)dx=E(x2)
. . . ... ...
以此类推, t = 0 t=0 t=0时, M ( t ) M(t) M(t) k k k 阶导就等于 E ( X ) E(X) E(X) k k k 阶矩。离散的情况大同小异,这里我直接给出来吧:
M ′ ( 0 ) = ∑ i = 1 n x f ( x ) d x = E ( x ) M^{'} (0)=\sum _{i=1 }^{n }xf(x)dx=E(x) M(0)=i=1nxf(x)dx=E(x)

看到这里,想必我们已经对 矩母函数 有了很好地理解了,想继续深入学习的话可以自行找资料补充,后续有时间的话我会继续跟大家分享交流的。

  • 33
    点赞
  • 75
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值