n维空间下两个随机向量的夹角分布


昨天群里大家讨论到了 n n n维向量的一些反直觉现象,其中一个话题是“ 一般 n n n维空间下两个随机向量几乎都是垂直的”,这就跟二维/三维空间的认知有明显出入了。要从理论上认识这个结论,我们可以考虑两个随机向量的夹角 θ \theta θ分布,并算算它的均值方差。

概率密度

首先,我们来推导 θ \theta θ的概率密度函数。呃,其实也不用怎么推导,它是n维超球坐标的一个直接结论。

要求两个随机向量之间的夹角分布,很显然,由于各向同性,所以我们只需要考虑单位向量,而同样是因为各向同性,我们只需要固定其中一个向量,考虑另一个向量随机变化。不是一般性,考虑随机向量为
x = ( x 1 , x 2 , … , x n ) (1) x=(x_1,x_2,\dots,x_n)\tag{1} x=(x1,x2,,xn)(1)
而固定向量为
y = ( 1 , 0 , ⋯   , 0 ) (2) y=(1,0,\cdots,0)\tag{2} y=(1,0,,0)(2)
x x x变换为超球坐标(关于 n n n维球的知识可以参考维基百科):
{ x 1 = cos ⁡ ( φ 1 ) x 2 = sin ⁡ ( φ 1 ) cos ⁡ ( φ 2 ) x 3 = sin ⁡ ( φ 1 ) sin ⁡ ( φ 2 ) cos ⁡ ( φ 2 )     ⋮ x n − 1 = sin ⁡ ( φ 1 ) … sin ⁡ ( φ n − 2 ) cos ⁡ ( φ n − 1 ) x n = sin ⁡ ( φ 1 ) … sin ⁡ ( φ n − 2 ) sin ⁡ ( φ n − 1 ) (3) \begin{cases} x_1=\cos(\varphi_1) \\[0.01ex] x_2=\sin(\varphi_1)\cos(\varphi_2) \\ x_3=\sin(\varphi_1)\sin(\varphi_2)\cos(\varphi_2) \\ \quad\:\:\,\vdots\\ x_{n-1}=\sin(\varphi_1)\dots\sin(\varphi_{n-2})\cos(\varphi_{n-1}) \\ x_{n}=\sin(\varphi_1)\dots\sin(\varphi_{n-2})\sin(\varphi_{n-1}) \\ \end{cases} \tag{3} x1=cos(φ1)x2=sin(φ1)cos(φ2)x3=sin(φ1)sin(φ2)cos(φ2)xn1=sin(φ1)sin(φn2)cos(φn1)xn=sin(φ1)sin(φn2)sin(φn1)(3)
其中 φ n − 1 ∈ [ 0 , 2 π ) \varphi_{n−1}\in[0,2\pi) φn1[0,2π)而剩下的 φ \varphi φ范围是 [ 0 , π ] [0,π] [0,π]。此时, x x x y y y的夹角是:
arccos ⁡ ⟨ x , y ⟩ = arccos ⁡ cos ⁡ φ 1 = φ 1 (4) \arccos{\langle x,y\rangle}=\arccos{\cos{\varphi_1}}=\varphi_1\tag{4} arccosx,y=arccoscosφ1=φ1(4)
也就是说两者的夹角正好是 φ 1 \varphi_1 φ1。那么, x x x y y y的夹角不超过 θ \theta θ的概率是:
P n ( φ 1 ≤ θ ) = n 维 超 球 面 上 φ 1 不 超 过 θ 的 积 分 n 维 超 球 面 上 的 全 积 分 (5) P_n(\varphi_1\leq\theta)=\cfrac{n维超球面上\varphi_1不超过\theta的积分}{n维超球面上的全积分}\tag{5} Pn(φ1θ)=nnφ1θ(5)
n n n维超球面上的积分微元 sin ⁡ n − 2 ( φ 1 ) sin ⁡ n − 3 ( φ 2 ) ⋯ sin ⁡ ( φ n − 2 ) d φ 1 d φ 2 ⋯ d φ n − 1 \sin^{n-2}{(\varphi_1)}\sin^{n-3}{(\varphi_2)}\cdots\sin{(\varphi_{n-2})}d{\varphi_1}d{\varphi_2}\cdots d{\varphi_{n-1}} sinn2(φ1)sinn3(φ2)sin(φn2)dφ1dφ2dφn1(可在维基百科找到),所以
P n ( φ 1 ≤ θ ) = ∫ 0 2 π ⋯ ∫ 0 π ∫ 0 θ sin ⁡ n − 2 ( φ 1 ) sin ⁡ n − 3 ( φ 2 ) ⋯ sin ⁡ ( φ n − 2 ) d φ 1 d φ 2 ⋯ d φ n − 1 ∫ 0 2 π ⋯ ∫ 0 π ∫ 0 π sin ⁡ n − 2 ( φ 1 ) sin ⁡ n − 3 ( φ 2 ) ⋯ sin ⁡ ( φ n − 2 ) d φ 1 d φ 2 ⋯ d φ n − 1 = ( n − 1 ) 维 单 位 超 球 的 表 面 积 × ∫ 0 θ sin ⁡ n − 2 φ 1 d φ 1 n 维 单 位 超 球 的 表 面 积 = Γ ( n 2 ) Γ ( n − 1 2 ) π ∫ 0 θ sin ⁡ n − 2 φ 1 d φ 1 ( n 维 球 面 的 表 面 积 S n = 2 π n 2 R n − 1 Γ ( n 2 ) ) (6) \begin{aligned} P_n(\varphi_1\leq\theta) & = \frac{\int_0^{2\pi}\cdots \int_0^{\pi}\int_0^{\theta}\sin^{n-2}(\varphi_1)\sin^{n-3}(\varphi_2)\cdots\sin(\varphi_{n-2})d\varphi_1d\varphi_2\cdots d\varphi_{n-1}}{\int_0^{2\pi}\cdots \int_0^{\pi}\int_0^{\pi}\sin^{n-2}(\varphi_1)\sin^{n-3}(\varphi_2)\cdots\sin(\varphi_{n-2})d\varphi_1d\varphi_2\cdots d\varphi_{n-1}} \\ & = \frac{(n−1)维单位超球的表面积\times\int_0^{\theta}\sin^{n-2}\varphi_1d\varphi_1}{n维单位超球的表面积} \\ & = \frac{\Gamma{(\frac{n}{2}})}{\Gamma{(\frac{n-1}{2})}\sqrt{\pi}}\int_{0}^{ \theta}\sin^{n-2}\varphi_1d\varphi_1 \quad(n维球面的表面积S_n=\frac{2\pi^{\frac{n}{2}}R^{n-1}}{\Gamma(\frac{n}{2})}) \end{aligned} \tag{6} Pn(φ1θ)=02π0π0πsinn2(φ1)sinn3(φ2)sin(φn2)dφ1dφ2dφn102π0π0θsinn2(φ1)sinn3(φ2)sin(φn2)dφ1dφ2dφn1=n(n1)×0θsinn2φ1dφ1=Γ(2n1)π Γ(2n)0θsinn2φ1dφ1(nSn=Γ(2n)2π2nRn1)(6)
这表明 θ \theta θ的概率密度函数就是
p n ( θ ) = Γ ( n 2 ) Γ ( n − 1 2 ) π sin ⁡ n − 2 θ (7) p_n(\theta)=\frac{\Gamma{(\frac{n}{2}})}{\Gamma{(\frac{n-1}{2})}\sqrt{\pi}}\sin^{n-2}\theta\tag{7} pn(θ)=Γ(2n1)π Γ(2n)sinn2θ(7)
有时候我们想关心 η = cos ⁡ θ \eta=\cos{\theta} η=cosθ的分布,这时候需要应用第二积分换元法做一下概率密度的换元
p n ( θ ) = Γ ( n 2 ) Γ ( n − 1 2 ) π sin ⁡ n − 2 ( arccos ⁡ η ) ∣ d θ d η ∣ = Γ ( n 2 ) Γ ( n − 1 2 ) π ( 1 − η 2 ) n − 2 2 ( 1 − η 2 ) 1 2 = Γ ( n 2 ) Γ ( n − 1 2 ) π ( 1 − η 2 ) n − 3 2 (8) \begin{aligned} p_n(\theta) &=\frac{\Gamma{(\frac{n}{2}})}{\Gamma{(\frac{n-1}{2})}\sqrt{\pi}}\sin^{n-2}(\arccos{ \eta})\bigg\lvert \frac{d\theta}{d\eta}\bigg\rvert \\ &=\frac{\Gamma{(\frac{n}{2}})}{\Gamma{(\frac{n-1}{2})}\sqrt{\pi}}(1-\eta^2)^{\frac{n-2}2}(1-\eta^2)^{\frac12}\\ &=\frac{\Gamma{(\frac{n}{2}})}{\Gamma{(\frac{n-1}{2})}\sqrt{\pi}}(1-\eta^2)^{\frac{n-3}2} \end{aligned} \tag{8} pn(θ)=Γ(2n1)π Γ(2n)sinn2(arccosη)dηdθ=Γ(2n1)π Γ(2n)(1η2)2n2(1η2)21=Γ(2n1)π Γ(2n)(1η2)2n3(8)

分布情况

(7)(8)我们可以看到,当 n = 2 n=2 n=2时,夹角 θ \theta θ的分布是一个均匀分布,而当 n = 3 n=3 n=3时,夹角余弦 cos ⁡ θ \cos\theta cosθ的分布是均匀分布。这两个结果说明在我们所能感知到的二维和三维空间中,角度的分布是比较均匀的。但是 n n n比较大的时候呢?比如 n = 20 , 50 n=20,50 n=20,50

p n ( θ ) ∼ sin ⁡ − 2 n θ p_n(\theta)\sim \sin^{-2n}\theta pn(θ)sin2nθ的形式可以发现,当 n ≥ 3 n\geq3 n3时,最大概率是 θ = π 2 \theta=\cfrac\pi2 θ=2π(即90度),另外 sin ⁡ n − 2 θ \sin^{n−2}\theta sinn2θ也是关于 θ = π 2 θ=\cfrac{\pi}{2} θ=2π对称的,所以它的均值也是 π 2 \cfrac\pi2 2π。但这还不能充分描述分布情况,我们还需要考虑方差
V a r n ( θ ) = Γ ( n 2 ) Γ ( n − 1 2 ) π ∫ 0 π ( θ − π 2 ) 2 sin ⁡ n − 2 θ d θ (9) Var_n(\theta)=\frac{\Gamma{(\frac{n}{2}})}{\Gamma{(\frac{n-1}{2})}\sqrt{\pi}}\int_0^{\pi}(\theta-\frac\pi2)^2\sin^{n-2}\theta d\theta\tag{9} Varn(θ)=Γ(2n1)π Γ(2n)0π(θ2π)2sinn2θdθ(9)
这个积分有解析解,但是形式很麻烦(喜欢看的话可以自己用Mathematica去算),我们来看部分数值解就好:

n方差
30.467401
100.110661
200.0525832
500.0204053
1000.0101007
2000.00502508
10000.001001

可以看到,随着 n n n的增大,方差越来越小,这意味着高维空间中任意两个向量的夹角几乎都集中在 π 2 \cfrac\pi2 2π附近,换言之,高维空间中任意两个向量几乎都是垂直的。

当然,从图像也可以看出:
在这里插入图片描述
如果想要近似解析解的读者,可以考虑用拉普拉斯方法,用一个高斯分布去近似 p n ( θ ) p_n(\theta) pn(θ):在 θ = π 2 \theta=\cfrac\pi2 θ=2π处对 ln ⁡ sin ⁡ n − 2 θ \ln\sin^{n−2}\theta lnsinn2θ进行展开
ln ⁡ sin ⁡ n − 2 θ = 2 − n 2 ( θ − π 2 ) 2 + O ( ( θ − π 2 ) 4 ) (10) \ln\sin^{n-2}\theta=\cfrac{2-n}{2}(\theta-\frac\pi2)^2+\mathscr{O}\big((\theta-\frac\pi2)^4\big) \tag{10} lnsinn2θ=22n(θ2π)2+O((θ2π)4)(10)

sin ⁡ n − 2 θ ≈ exp ⁡ [ − n − 2 2 ( θ − π 2 ) 2 ] (11) \sin^{n-2}\theta\approx \exp[-\cfrac{n-2}{2}(\theta-\frac\pi2)^2] \tag{11} sinn2θexp[2n2(θ2π)2](11)
从这个近似形式看,我们可以近似地认为 θ \theta θ服从均值为 π 2 \cfrac\pi2 2π、方差为 1 n − 2 \cfrac1{n−2} n21的正态分布,即当 n n n较大时,方差近似为 1 n − 2 \cfrac1{n−2} n21,这也能看出 n n n越大,方差越小。

转载

本文转载自苏神的 n维空间下两个随机向量的夹角分布

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 两个n维向量的位置关系可以通过计算它们的夹角来判断。具体来说,如果两个向量夹角为0度,则它们重合;如果夹角为90度,则它们互相垂直;如果夹角大于90度,则它们在向量起点的不同侧;如果夹角小于90度,则它们在向量起点的同侧。此外,我们还可以通过比较两个向量的模长来判断它们的大小关系。如果一个向量的模长大于另一个向量,则它更长。 ### 回答2: 两个n维向量的位置关系可以通过以下几种情况进行描述: 1. 重合:如果两个n维向量的所有对应分量均相等,则这两个向量是重合的。例如,如果两个3维向量的分量分别为(1, 2, 3)和(1, 2, 3),那么它们是重合的。 2. 平行:如果两个n维向量的对应分量之间存在比例关系,则这两个向量是平行的。例如,如果两个3维向量的分量分别为(1, 2, 3)和(2, 4, 6),那么它们是平行的,因为它们的对应分量之间存在比例关系。 3. 垂直:如果两个n维向量的内积为0,则它们是垂直的。例如,如果两个3维向量的分量分别为(1, 2, 3)和(3, -2, 1),那么它们是垂直的,因为它们的内积为0。 4. 不相交:如果两个n维向量没有交集,即它们的所有对应分量都不相等,则它们是不相交的。例如,如果两个3维向量的分量分别为(1, 2, 3)和(4, 5, 6),那么它们是不相交的。 总结起来,两个n维向量的位置关系可以通过判断它们是否重合、平行、垂直或不相交来确定。 ### 回答3: 两个n维向量的位置关系可以通过以下几种情况来描述: 1. 向量重合:当两个n维向量的每个对应分量都相等时,可以说它们重合在同一位置上,即两个向量的位置关系是重合的。 2. 平行但不重合:如果两个n维向量具有相同的方向但不重合,它们可以被称为平行向量。当两个平行向量乘以相同的标量倍数时,它们仍然保持平行关系,但位置不同。 3. 正交:如果两个n维向量的点积等于0,则它们可以被称为正交向量。这意味着它们的方向相互垂直,但长度不一定相等。 4. 锐角:当两个向量夹角小于90度时,可以说它们之间存在锐角。这意味着它们的方向相对接近。 5. 钝角:当两个向量夹角大于90度时,可以说它们之间存在钝角。这意味着它们的方向相对离得比较远。 总之,两个n维向量的位置关系可以通过向量之间的重合、平行、正交、夹角的大小等特征来描述。这些关系有助于我们理解向量在空间中的相互关系,以及它们在线性代数等领域中的应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值