高阶统计
Cumulants(续)
在介绍Cumulants之前,我们首先看一下Moment-generating function:
M X ( t ) : = E [ e t X ] , t ∈ R M_X(t) := \operatorname E \left[e^{tX}\right], \quad t \in \mathbb{R} MX(t):=E[etX],t∈R
可以看出,MGF和《数学狂想曲(二)》中提到的随机变量的特征函数(Characteristic function, CF)的形式非常类似。
而cumulant-generating function则是MGF的对数,即:
K ( t ) = log E [ e t X ] K(t)=\log\operatorname{E}\left[e^{tX}\right] K(t)=logE[etX]
对上式进行Maclaurin展开,可得:
K ( t ) = ∑ n = 1 ∞ κ n t n n ! = μ t + σ 2 t 2 2 + ⋯ K(t)=\sum_{n=1}^\infty \kappa_{n} \frac{t^{n}}{n!} = \mu t + \sigma^2 \frac{t^2}{2} + \cdots K(t)=n=1∑∞κnn!tn=μt+σ22t2+⋯
这里的 κ n \kappa_{n} κn就是Cumulants了。
由MGF和CF的关系易知,使用CF的对数的Maclaurin展开,也可以求Cumulants。
Cumulants有如下性质:
(1) c u m ( λ 1 x 1 , … , λ k x k ) = ∑ i = 1 k λ i c u m ( x 1 , … , x k ) cum(\lambda_1x_1,\dots,\lambda_kx_k)=\sum_{i=1}^k\lambda_i cum(x_1,\dots,x_k)\tag{1} cum(λ1x1,…,λkxk)=i=1∑kλicum(x1,…,xk)(1)
其中, λ i \lambda_i λi为常数。
(2) c u m ( x 1 , … , x k ) = c u m ( x i 1 , … , x i k ) cum(x_1,\dots,x_k)=cum(x_{i_1},\dots,x_{i_k})\tag{2} cum(x1,…,xk)=cum(xi1,…,xik)(2)
其中, ( i 1 , … , i k ) (i_1,\dots,i_k) (i1,…,ik)为 ( 1 , … , k ) (1,\dots,k) (1,…,k)的任意一种排列。
(3) c u m ( x 0 + y 0 , z 1 , … , z k ) = c u m ( x 0 , z 1 , … , z k ) + c u m ( y 0 , z 1 , … , z k ) cum(x_0+y_0,z_1,\dots,z_k)=cum(x_0,z_1,\dots,z_k) + cum(y_0,z_1,\dots,z_k)\tag{3} cum(x0+y0,z1,…,zk)=cum(x0,z1,…,zk)+cum(y0,z1,…,zk)(3)
如果 α \alpha α为常数,则:
(4) c u m ( α + z 1 , … , z k ) = c u m ( z 1 , … , z k ) cum(\alpha+z_1,\dots,z_k)=cum(z_1,\dots,z_k)\tag{4} cum(α+z1,…,zk)=cum(z1,…,zk)(4)
如果 x i x_i xi与 y i y_i yi相互独立,则:
(5) c u m ( x 1 + y 1 , … , x k + y k ) = c u m ( x 1 , … , x k ) + c u m ( y 1 , … , y k ) cum(x_1+y_1,\dots,x_k+y_k)=cum(x_1,\dots,x_k)+cum(y_1,\dots,y_k)\tag{5} cum(x1+y1,…,xk+yk)=cum(x1,…,xk)+cum(y1,…,yk)(5)
参考
https://www.zhihu.com/question/25344430
随机变量的矩和高阶矩有什么实在的含义?
https://www.zhihu.com/question/43469699
信号的矩和高阶累积量的定义是什么?
http://www.doc88.com/p-1127198771359.html
高阶累积量与高阶谱读书笔记
https://wenku.baidu.com/view/7c4931085727a5e9856a6139.html
高阶谱分析
https://wenku.baidu.com/view/136b666c561252d380eb6e8c.html
高阶统计量的定义与性质
最速降线
约翰·伯努利在1696年提出最速降线的问题(problem of brachistochrone),向全欧洲数学家征求解答。这个问题最早由伽利略在1630年提出:“一个质点在只受重力的作用下,从一个给定点A到不在它垂直下方的另一点B,问沿着什么曲线下滑(忽略摩擦力)所需时间最短?”
然而伽利略自己给出的答案是错误的:他认为这条曲线是过AB的圆弧。这条曲线也不是连接AB两点的直线,尽管AB间线段最短,但小球滚下来的时间不是最短。
伯努利把此问题发布在Acta Eruditorum上,他还这么说:
“我,约翰·伯努利,想找到世界上最出色的数学家。对聪明人而言,没有什么能比一道诚实而富有挑战性的难题更有吸引力,其可能的解决方案将会成为一个永恒的纪念碑。按照帕斯卡,费马等人设定的例子,请允许我代表整个数学界将这个尤其能在今天考验大家的数学技巧和思维耐力的问题展示在最优秀的数学家面前。如果有人能把答案递交与我,我会将其公开,并授予其应得的奖赏。”
伯努利原定的截止期限是1696年年底,可是他只受到了一份来自他的老师莱布尼兹的解答。莱布尼兹要求伯努利将截止期限延长到来年复活节(大致在3月下旬到4月下旬之间),以便让欧洲数学家们有更多时间来充分解决此道难题。约翰·伯努利亲自把最速降线问题抄了一份,装进信封寄给在英国的牛顿。
1697年1月29日,牛顿正在造币局里忙着改铸新币的工作。下午4点回到家里,他看到了邮箱里伯努利寄来的问题。尽管牛顿非常疲惫,他立即彻夜未眠的投入研究,在凌晨4点时得到问题的解答。他将他的解答寄给好友兼皇家协会主席查尔斯,随后皇家协会以匿名的形式发表在Philosophical Transactions上。
要知道,此时的牛顿已经56岁,工作重点是皇家铸币厂监管。即使如此,在忙了一天的本职工作后,牛顿还是用几个小时就解决了许多欧洲数学家都无法解出的难题。约翰·伯努利本人也花了两个星期的时间才完成解答。
1697年复活节的截止期限,伯努利共收到了5份答案,他自己和其老师莱布尼兹,第三份是他的哥哥雅可布·伯努利,洛必达是第四个,最后是一份匿名答案。伯努利在阅读最后一份解答时立即认出它的作者,他惊叹道:
“从利爪上认出了这头狮子(recognizes a lion from his claw mark)”
在给查尔斯的信里,牛顿还写道:我不喜欢在数学上被外国人糊弄(I do not love to be dunned and teased by foreigners about mathematical things)。
除了牛顿之外,雅可布·伯努利也是约翰·伯努利最想击败的对手。事实上,三个人虽然都正确回答了该问题,然而所用的方法竟然全都不同。下面提到的变分法,主要是雅可布·伯努利的贡献。
言归正传,最速降线的正确答案是——摆线(Cycloid):一个圆在一条定直线上滚动时,圆周上一个定点的轨迹,又称圆滚线、旋轮线。
伽利略虽然在最速降线问题上给出了错误的答案,然而他本人对于摆线还是研究颇深的。事实上,摆线的名字就是他起的(1599年)。
他还发现了以下结论:
1.摆线弧的长度等于旋转圆的直径的4倍。
2.摆线弧下方所围成的面积是旋转圆的面积的3倍。
在没有微积分的时代,他是如何发现这些结论的呢?答案:做实验。
是的,你没看错,就是实验。他用一根绳子附在摆线度量出这条绳子的长度再与旋转圆的直径作比较,得到了第一个事实;在一块薄板上画出摆线所围成的图形,再把这个图形切下来,称一下它的重量,然后在同样的薄板上画出旋转圆,再把旋转圆切下来,称一下重量,他发现了第二条事实。
注意,伽利略虽然发现了摆的等时性,然而他用的摆是圆摆。直到惠更斯改进钟摆,钟摆和摆线才有了关系。这从摆线的英文名可以看的很清楚。伽利略显然采用的是圆滚线的定义。
泛函 & 变分
历史上对于最速降线的研究催生了泛函数(Functionals)和变分法(Calculus of Variations)的概念。
这里就以最速降线为例,说明一下泛函和变分的含义。
首先建立坐标系,水平方向为x轴,竖直方向为y轴。
则质点下落速率与下落高度间的关系为:
v = 2 g h ⇒ d s d t = 2 g y v=\sqrt{2gh}\Rightarrow \frac{\mathrm{d}s}{\mathrm{d}t}=\sqrt{2gy} v=2gh⇒dtds=2gy
所以:
T = ∫ t 1 ( A ) t 2 ( B ) d t = ∫ A B d s 2 g y = ∫ A B 1 − y ′ 2 2 g y d x T=\int_{t_1(A)}^{t_2(B)}\mathrm{d}t=\int_{A}^{B}\frac{\mathrm{d}s}{\sqrt{2gy}}=\int_{A}^{B}\frac{\sqrt{1-y'^2}}{\sqrt{2gy}}\mathrm{d}x T=∫t1(A)t2(B)dt=∫AB2gyds=∫AB2gy1−y′2dx
显然,这是一个路径积分。
上式可改写为以下形式:
T = T [ y ( x ) ] = ∫ A B 1 − y ′ 2 2 g y d x = ∫ A B F ( x , y , y ′ ) d x T=T[y(x)]=\int_{A}^{B}\frac{\sqrt{1-y'^2}}{\sqrt{2gy}}\mathrm{d}x=\int_{A}^{B}F(x,y,y')\mathrm{d}x T=T[y(x)]=∫AB2gy1−y′2dx=∫ABF(x,y,y′)dx
注意,这里的 T [ y ( x ) ] T[y(x)] T[y(x)]不能理解为复合函数:
1.复合函数的变换是 x → y → T x\to y \to T x→y→T。其中,x、y、T都是数值。换句话说,就是数值的传递。
2.在这个问题中,y的具体值,意义不大,如何到达y的路径才是关键。而路径其实可以表达为一个函数,即y是x的函数,而T是x的函数的函数(也被称为“泛函”)。
**泛函求极值的方法和过程,被称作变分法。**上述最速降线问题,实际上就是在一个泛函集合上求极值的问题。
对于任意定值 x ∈ [ x 0 , x 1 ] x \in [x_0,x_1] x∈[x0,x1],可取函数 y ( x ) y(x) y(x)与另一可取函数 y 0 ( x ) y_0(x) y0(x)之差 y ( x ) − y 0 ( x ) y(x)-y_0(x) y(x)−y0(x),称为函数 y ( x ) y(x) y(x)在 y 0 ( x ) y_0(x) y0(x)处的变分或者叫函数的变分,记作 δ y \delta y δy,其中 δ \delta δ称为变分算子,那么:
δ y = y ( x ) − y 0 ( x ) \delta y = y(x)-y_0(x) δy=y(x)−y0(x)
从上面的定义可以看出函数的变分 δ y \delta y δy与函数的增量 Δ y \Delta y Δy之间的区别:
1.函数的变分 δ y \delta y δy是两个不同的函数 y ( x ) y(x) y(x)和 y 0 ( x ) y_0(x) y0(x)在自变量x固定时的差,这是函数发生了改变。
2.函数的增量 Δ y \Delta y Δy是自变量x的增量使得函数 y ( x ) y(x) y(x)产生的增量,函数依然是原来的函数。
被积函数F被称为泛函的核。
核的三要素:
1.自变量x。可以有多个自变量。
2.函数y。也可以是多个。
3.y的导数。可以是多个,也可以是高阶导数。
最速降线问题由于只涉及y的一阶导数,因此又被称为一阶变分问题。
这类问题是最简单的变分问题,它的极值通常符合Euler–Lagrange equation:
F y − d d x F y ′ = 0 F_y-\frac{d}{dx}F'_y=0 Fy−dxdFy′=0
泛函极值问题的求解方法,除了变分法之外,常见的还有动态规划和最优控制。
教程:
《变分法基础》,老大中著。
老大中,北京理工大学宇航学院发射与推进工程系副教授。
参考:
https://zhuanlan.zhihu.com/yueaptx
一个变分法方面的专栏
https://blog.csdn.net/shenziheng1/article/details/54808173
泛函与变分初步(Euler-lagrange条件)
https://www.cnblogs.com/MagicXYoung/p/4906606.html
泛函与变分基础
https://blog.csdn.net/theonegis/article/details/86217916
变分法入门介绍
https://zhuanlan.zhihu.com/p/41573146
变分法理解1——泛函简介
https://zhuanlan.zhihu.com/p/41810184
变分法理解2——基本方法