两个高斯分布相加(卷积)的理论推导


本文主要推导两个高斯分布的相加结果。在知乎上有个问题:正态分布随机变量的和还是正态分布吗? _ 也是本文主要解决的问题。

高斯分布的概率密度函数:
f ( x ) = 1 2 π δ e − ( x − u ) 2 2 δ 2 (1) f(x) = \frac{1}{\sqrt{2\pi}\delta}{e^{-\frac{(x-u)^2}{2\delta^2}}} \tag{1} f(x)=2π δ1e2δ2(xu)2(1)

直觉中,两个高斯(正态)随机变量的和似乎应该是两个概率密度函数的和,如下图所示,其结果就近似为两个概率密度的包络线,这明显是错误的,是用直觉推导数学,大错特错
在这里插入图片描述
在解决此问题前,我们需要搞清楚两个高斯函数的和的物理意义,这里用经典的投骰子作为为例子更好理解。

  • 离散卷积:投骰子 - 同时投求两个骰子所的点数相加得4的概率是多少?
    则其结果为
    p 1 ( 1 ) p 2 ( 3 ) + p 1 ( 2 ) p 2 ( 2 ) + p 1 ( 3 ) p 2 ( 1 ) = 1 12 (2) p_1(1)p_2(3)+p_1(2)p_2(2)+p_1(3)p_2(1)=\frac{1}{12}\tag{2} p1(1)p2(3)+p1(2)p2(2)+p1(3)p2(1)=121(2)

注意这里的概率为 P ( X + Y = 4 ) P(X+Y=4) P(X+Y=4),因此卷积的物理意义不是两个概率密度相加,而是自变量相加后发生的概率,即若设 z = x + y z=x+y z=x+y,则有 z z z 发生的概率为:
f ( z ) = ∫ − ∞ + ∞ f ( x ) f ( z − x ) d x (3) f(z)=\int^{ +\infty }_{ - \infty }f(x)f(z-x)dx\tag{3} f(z)=+f(x)f(zx)dx(3)

当理解到这里时,我们就可以很容易的计算两个高斯分布的加和了。


两个高斯分布相加本质问题可抽象为:已知两个独立高斯分布 N 1 ∼ ( u 1 , δ 1 2 ) N_1∼(u_1, \delta_1^2) N1(u1,δ12), N 2 ∼ ( u 2 , δ 2 2 ) N_2∼(u_2, \delta_2^2) N2(u2,δ22),求新的概率分布 N = N 1 + N 2 ∼ ( ? , ? ) N =N_1+N_2∼(?,?) N=N1+N2(?,?)

N 1 N_1 N1 的概率分布函数为 f 1 ( x ) f_1(x) f1(x) N 2 N_2 N2 的概率分布函数为 f 2 ( y ) f_2(y) f2(y), 则此问题变为求 f ( z = x + y ) f(z=x+y) f(z=x+y)的概率密度函数?
f ( z ) = ∫ − ∞ + ∞ f 1 ( x ) f 2 ( z − x ) d x = ∫ − ∞ + ∞ 1 2 π δ 1 e − ( x − u 1 ) 2 2 δ 1 2 ⋅ 1 2 π δ 2 e − ( z − x − u 2 ) 2 2 δ 2 2 d x (4) \begin{aligned} f(z)&=\int^{ +\infty }_{ - \infty }f_1(x)f_2(z-x)dx\\\\ &=\int^{ +\infty }_{ - \infty }\frac{1}{\sqrt{2\pi}\delta_1}{e^{-\frac{(x-u_1)^2}{2\delta_1^2}}}\cdot\frac{1}{\sqrt{2\pi}\delta_2}{e^{-\frac{(z-x-u_2)^2}{2\delta_2^2}}}dx \end{aligned}\tag{4} f(z)=+f1(x)f2(zx)dx=+2π δ11e2δ12(xu1)22π δ21e2δ22(zxu2)2dx(4)
仔细一看,这里的 f ( z ) f(z) f(z) 就是在前一节《两个高斯分布乘积的理论推导》中推导的结果,这里先引用前一节的推导结果,公式7 和 公式8
f 1 ( x ) f 2 ( x ) = S g ⋅ 1 2 π δ e − ( x − u ) 2 2 δ 2 S g = 1 2 π ( δ 1 2 + δ 2 2 ) e − ( u 1 − u 2 ) 2 2 ( δ 1 2 + δ 2 2 ) (5) \begin{aligned} f_1(x)f_2(x) &=S_g\cdot\frac{1}{\sqrt{2\pi} \delta}{e^{-\frac{(x-u)^2}{2\delta^2}}}\\\\ S_g&=\frac{1}{\sqrt{2\pi(\delta_1^2+\delta_2^2)}}e^{-\frac{(u_1-u_2)^2}{2(\delta_1^2+\delta_2^2)}}\tag{5} \end{aligned} f1(x)f2(x)Sg=Sg2π δ1e2δ2(xu)2=2π(δ12+δ22) 1e2(δ12+δ22)(u1u2)2(5)
将公式5代入公式4,其中 f 1 ( x ) ∼ ( u 1 , δ 1 2 ) f_1(x)∼(u_1, \delta_1^2) f1(x)(u1,δ12) , f 2 ( x ) ∼ ( z − u 2 , δ 2 2 ) f_2(x)∼(z-u_2, \delta_2^2) f2(x)(zu2,δ22) 可得:
f ( z ) = ∫ − ∞ + ∞ 1 2 π δ 1 e − ( x − u 1 ) 2 2 δ 1 2 ⋅ 1 2 π δ 2 e − ( x − ( z − u 2 ) ) 2 2 δ 2 2 d x = ∫ − ∞ + ∞ S g ⋅ 1 2 π δ e − ( x − u ) 2 2 δ 2 d x = S g (6) \begin{aligned} f(z)&=\int^{ +\infty }_{ - \infty }\frac{1}{\sqrt{2\pi}\delta_1}{e^{-\frac{(x-u_1)^2}{2\delta_1^2}}}\cdot\frac{1}{\sqrt{2\pi}\delta_2}{e^{-\frac{(x-(z-u_2))^2}{2\delta_2^2}}}dx\\\\ &=\int^{ +\infty }_{ - \infty }S_g\cdot\frac{1}{\sqrt{2\pi} \delta}{e^{-\frac{(x-u)^2}{2\delta^2}}}dx\\\\ &=S_g \end{aligned}\tag{6} f(z)=+2π δ11e2δ12(xu1)22π δ21e2δ22(x(zu2))2dx=+Sg2π δ1e2δ2(xu)2dx=Sg(6)

其中:
S g = 1 2 π ( δ 1 2 + δ 2 2 ) e x p ( − ( u 1 − ( z − u 2 ) ) 2 2 ( δ 1 2 + δ 2 2 ) ) (7) S_g=\frac{1}{\sqrt{2\pi(\delta_1^2+\delta_2^2)}}exp\bigg(-\frac{(u_1-(z-u_2))^2}{2(\delta_1^2+\delta_2^2)}\bigg)\tag{7} Sg=2π(δ12+δ22) 1exp(2(δ12+δ22)(u1(zu2))2)(7)

则可得:
f ( z ) = 1 2 π ( δ 1 2 + δ 2 2 ) e x p ( − ( z − ( u 1 + u 2 ) ) 2 2 ( δ 1 2 + δ 2 2 ) ) (8) f(z)=\frac{1}{\sqrt{2\pi(\delta_1^2+\delta_2^2)}}exp\bigg(-\frac{(z-(u_1+u_2))^2}{2(\delta_1^2+\delta_2^2)}\bigg)\tag{8} f(z)=2π(δ12+δ22) 1exp(2(δ12+δ22)(z(u1+u2))2)(8)
对比高斯分布函数表达式,可以明显看出, f ( x + y ) ∼ ( u 1 + u 2 , δ 1 2 + δ 2 2 ) f(x+y)∼(u_1+u_2, \delta_1^2+\delta_2^2) f(x+y)(u1+u2,δ12+δ22)
同理可得: f ( x − y ) ∼ ( u 1 − u 2 , δ 1 2 + δ 2 2 ) f(x-y)∼(u_1-u_2, \delta_1^2+\delta_2^2) f(xy)(u1u2,δ12+δ22)

  • 这里利用两个高斯函数的乘积的推导结果,能很快得出结论。
  • 注意:当 N 2 ∼ ( 0 , δ 2 2 ) N_2∼(0, \delta_2^2) N2(0,δ22) ,换句话说就是当 f 2 ( y ) f_2(y) f2(y) 为零均值的高斯白噪声时,可以得到一个奇特的现象: f ( x + y ) = f ( x − y ) f(x+y)=f(x-y) f(x+y)=f(xy) ,即在一个独立分布上加或减一个白噪声,其为同分布。

同时,我们可以继续推导得:
若两个独立高斯分布 N 1 ∼ ( a u 1 , ( A δ 1 ) 2 ) , N 2 ∼ ( b u 2 , ( B δ 2 ) 2 ) N_1∼(au_1, (A\delta_1)^2),N_2∼(bu_2, (B\delta_2)^2) N1(au1,(Aδ1)2)N2(bu2,(Bδ2)2)
则其卷积和为 N 1 ∼ ( u , δ 2 ) N_1∼(u, \delta^2) N1(u,δ2)

  • u = a u 1 + b u 2 u=au_1+bu_2 u=au1+bu2
  • δ 2 = A 2 δ 1 2 + B 2 δ 2 2 \delta^2= A^2\delta_1^2+B^2\delta_2^2 δ2=A2δ12+B2δ22

在这里插入图片描述

参考文献:

https://blog.csdn.net/chaosir1991/article/details/106910668
https://www.zhihu.com/question/26055805
https://blog.csdn.net/erzhonghou0033/article/details/106639102/

  • 64
    点赞
  • 181
    收藏
    觉得还不错? 一键收藏
  • 11
    评论
### 回答1: 卷积神经网络(Convolutional Neural Network,CNN)是一种常用于图像识别和计算机视觉任务的深度学习模型。其理论推导过程如下: 1. 卷积操作:CNN的核心操作是卷积操作。卷积操作是指将输入图像与一个称为卷积核的小矩阵进行卷积运算,生成一张新的特征图。卷积运算可以有效地提取图像的局部特征,由于权重共享机制,使得卷积网络能够处理大规模图像且减少参数的数量。 2. 激活函数:卷积操作后,需要对特征图进行非线性变换,引入了激活函数。常用的激活函数有ReLU(Rectified Linear Unit)、Sigmoid和Tanh等。 3. 池化操作:在卷积操作后,通常会进行池化操作。池化操作通过在特征图上滑动一个固定大小的窗口,将窗口内的特征进行聚合,生成新的特征图。池化操作能够压缩特征图的空间尺寸并保留主要特征,减少网络对位置的敏感性。 4. 全连接层:经过多次卷积和池化操作后,得到的特征图需要通过全连接层进行分类或回归。全连接层将特征图展开成一维向量,与权重矩阵相乘后经过激活函数得到最终的输出结果。 5. 损失函数与优化:在训练过程中,需要定义一个损失函数来度量模型输出与真实值之间的差异。常用的损失函数有均方误差损失和交叉熵损失。通过反向传播算法,计算损失函数对网络中各个参数的梯度,并使用梯度下降优化算法来更新参数,使得模型能够逐渐收敛。 以上就是CNN的理论推导详细过程,包括卷积操作、激活函数、池化操作、全连接层和损失函数与优化等关键步骤。通过这些过程,CNN能够自动从输入图像中提取特征,并进行有效的分类与预测。 ### 回答2: CNN(卷积神经网络)是一种经典的深度学习模型,主要用于图像处理和模式识别任务。以下是CNN的理论推导过程的详细步骤: 1. 卷积操作:CNN的核心是卷积操作,它通过将图像与一个卷积核进行卷积运算来提取特征。卷积操作是通过将卷积核滑动到图像的每个位置,将每个位置上的像素与卷积核中的权重相乘,然后求和得到输出特征图的一个像素。 2. 激活函数:卷积操作之后通常会使用激活函数来引入非线性。常用的激活函数包括ReLU、Sigmoid和Tanh等。激活函数能够增加网络的表达能力,使其能够更好地拟合复杂的数据分布。 3. 池化操作:在卷积操作之后,通常会加入池化层来减小特征图的尺寸,并降低网络的计算复杂度。常用的池化操作包括最大池化和平均池化,它们分别选取特定区域中的最大值或平均值作为输出。 4. 多层堆叠:CNN通常由多个卷积层、激活函数层和池化层堆叠而成。通过多层堆叠,网络能够在不同层次上提取图像的不同抽象特征。 5. 全连接层:在经过多层的卷积和池化之后,通常会添加全连接层来进行最后的分类。全连接层中的神经元与前一层的所有神经元相连接,它能够结合前面层次提取的特征来进行分类。 6. 损失函数和优化:在训练CNN时,需要定义一个损失函数来度量模型的预测值与真实值之间的差异,并使用优化算法来最小化损失函数。常用的优化算法包括梯度下降法和反向传播算法。 总的来说,CNN通过堆叠卷积、激活、池化和全连接层的方式,以及使用损失函数和优化算法来实现对图像的特征提取和分类。通过反向传播算法,CNN能够自动学习到适合特定任务的卷积核和网络参数,从而提高模型的预测准确性。 ### 回答3: 卷积神经网络(Convolutional Neural Network,简称CNN)是一种广泛应用于图像处理和识别任务的深度学习模型。它的核心思想是通过卷积操作来提取图像中的特征,并通过深层次的网络结构实现对特征的高级抽象和分类。 CNN的理论推导包含以下的详细过程: 1. 数据预处理:在使用CNN之前,需要对输入数据进行预处理。常见的预处理方法包括图像的归一化、标准化和平衡化等操作,以便提高模型的训练效果。 2. 卷积操作:卷积是CNN的核心操作,它通过在输入图像上滑动一个固定大小的卷积核(也称为滤波器)来提取局部的特征。卷积核与输入图像的对应位置相乘,并将结果相加得到输出特征图。 3. 激活函数:卷积操作后,需要对输出进行激活函数处理。常用的激活函数有ReLU、Sigmoid和Tanh等,它们能够增加网络的非线性表达能力,并提高模型的性能。 4. 池化操作:池化是一种降采样操作,它能够通过减少特征图的尺寸,提取更加鲁棒的特征,并减少模型的参数数量。常见的池化操作有最大池化和平均池化,它们分别选择局部区域内的最大值和平均值作为输出。 5. 全连接层:在经过多次卷积和池化操作后,最后一层通常是全连接层。全连接层将前一层的输出展平成一个向量,并通过矩阵运算和激活函数处理,得到最终的分类结果。 6. 损失函数:为了评价模型的性能,需要定义损失函数来衡量模型的预测值与真实标签之间的差异。常见的损失函数有交叉熵损失函数和均方误差损失函数等。 7. 反向传播:通过反向传播算法,从输出层到输入层逐层计算每个参数对损失的贡献,并根据损失的梯度更新参数,以使得模型的输出更加接近真实标签。 8. 模型训练:通过迭代训练样本,更新模型的参数,使得模型在训练数据上的损失逐渐减小。常见的优化算法有随机梯度下降和Adam等。 以上是CNN的理论推导的详细过程,通过以上的步骤,我们可以得到一个训练好的CNN模型,用于图像处理和识别任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值