sigmoid 与 normal distribution 结合的一道数学题

1. 问题

f ( x ) = 1 1 + e − x (1) f(x) = \frac{1}{1 + e^{-x}} \tag{1} f(x)=1+ex1(1)
x ∼ N ( μ , σ 2 ) (2) x \sim \mathcal{N}(\mu, \sigma^2) \tag{2} xN(μ,σ2)(2)
(1) f ( x ) f(x) f(x) 的分布密度能否导出?
(2) f ( x ) f(x) f(x) 的均值方差如何计算?

2. 解:

列出正态分布式子:
p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 (3) p(x) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x - \mu)^2}{2 \sigma^2}} \tag{3} p(x)=2π σ1e2σ2(xμ)2(3)
由式 (1) 可知, y = f ( x ) y = f(x) y=f(x) 的取值范围为 ( 0 , 1 ) (0, 1) (0,1). 应满足
∫ 0 1 p ( y ) = 1. (4) \int_{0}^{1} p(y) = 1. \tag{4} 01p(y)=1.(4)

2.1 密度函数的计算

需要导出 p ( y ) p(y) p(y).
P ( y ≤ α ) = ∫ 0 α p ( y ) d y = P ( x ≤ f − 1 ( α ) ) = ∫ − ∞ f − 1 ( α ) p ( x ) d x (5) P(y \leq \alpha) = \int_{0}^\alpha p(y) d y= P(x \leq f^{-1}(\alpha)) = \int_{-\infty}^{f^{-1}(\alpha)} p(x)d x \tag{5} P(yα)=0αp(y)dy=P(xf1(α))=f1(α)p(x)dx(5)


这里是我的版本:
使用反函数, 获得下式 (这是一个充分条件,但我不知道是否必要):
p y ( x ) = p x ( f − 1 ( x ) ) (6) p_y(x) = p_x(f^{-1}(x)) \tag{6} py(x)=px(f1(x))(6)
继续代入可得
p y ( x ) = p x ( ln ⁡ x 1 − x ) = 1 2 π σ e − ( ln ⁡ x 1 − x − μ ) 2 2 σ 2 (7) p_y(x) = p_x\left(\ln \frac{x}{1-x}\right) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{\left(\ln \frac{x}{1-x} - \mu\right)^2}{2 \sigma^2}} \tag{7} py(x)=px(ln1xx)=2π σ1e2σ2(ln1xxμ)2(7)
注意 x ∈ ( 0 , 1 ) x \in (0, 1) x(0,1).


以下是罗皓的推导.
先求反函数:
f − 1 ( y ) = ln ⁡ y 1 − y (8) f^{-1}(y) = \ln \frac{y}{1 - y} \tag{8} f1(y)=ln1yy(8)
对反函数求导:
( f − 1 ( y ) ) ′ = 1 1 − y (9) (f^{-1}(y))' = \frac{1}{1 - y} \tag{9} (f1(y))=1y1(9)
分布函数
G ( y ) = P { η ≤ y } = P { f ( ξ ≤ y ) } = ∫ f ( x ) ≤ y p ( x ) d x (10) G(y) = P\{\eta \leq y\} = P\{f(\xi \leq y)\} = \int_{f(x) \leq y} p(x) dx \tag{10} G(y)=P{ηy}=P{f(ξy)}=f(x)yp(x)dx(10)
因为这里的 f ( x ) f(x) f(x) 是单增函数, 上述积分可以直接代算的, 亦 ξ \xi ξ 理解为把 { ξ ∣ f ( ξ ) < y } \{\xi | f(\xi) < y\} {ξf(ξ)<y} 关于 ξ \xi ξ 的等价事件, 即
f ( x ) ≤ y ⇔ f − 1 ( f ( x ) ) ≤ f − 1 ( y ) (11) f(x) \leq y \Leftrightarrow f^{-1}(f(x)) \leq f^{-1}(y) \tag{11} f(x)yf1(f(x))f1(y)(11)

x ≤ f − 1 ( y ) x \leq f^{-1}(y) xf1(y).

G ( y ) = P { f ( ξ ) ≤ y } = P { ξ ≤ f − 1 ( y ) } = F ( f − 1 ( y ) ) (12) G(y) = P\{f(\xi) \leq y\} = P\{\xi \leq f^{-1}(y)\} = F(f^{-1}(y)) \tag{12} G(y)=P{f(ξ)y}=P{ξf1(y)}=F(f1(y))(12)
此时
p ( y ) = G ′ ( y ) = d ( F ( f − 1 ( y ) ) ) d ( f − 1 ( y ) ) ⋅ d ( f − 1 ( y ) ) d y = p ( f − 1 ( y ) ) ( f − 1 ( y ) ) ′ (13) p(y) = G'(y) = \frac{d(F(f^{-1}(y)))}{d(f^{-1}(y))} \cdot \frac{d(f^{-1}(y))}{dy} = p(f^{-1}(y))(f^{-1}(y))'\tag{13} p(y)=G(y)=d(f1(y))d(F(f1(y)))dyd(f1(y))=p(f1(y))(f1(y))(13)
最后
p ( y ) = 1 y ( 1 − y ) ⋅ 1 2 π σ e − ( ln ⁡ y 1 − y − μ ) 2 2 σ 2 (14) p(y) = \frac{1}{y(1-y)} \cdot \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{\left(\ln \frac{y}{1-y} - \mu\right)^2}{2 \sigma^2}} \tag{14} p(y)=y(1y)12π σ1e2σ2(ln1yyμ)2(14)

在这里插入图片描述

图1. (14) 式对应的概率函数, 由钱坤提供

2.2 均值的计算

由 sigmoid 函数与正态分布函数的对称性可知 (我都不知道自己是怎么胡扯出来的):
E ( x ) = f ( μ ) = 1 1 + e − μ (8) E(x) = f(\mu) = \frac{1}{1 + e^{-\mu}} \tag{8} E(x)=f(μ)=1+eμ1(8)
特别地, 当 μ = 0 \mu = 0 μ=0 时, E ( x ) = 0.5 E(x) = 0.5 E(x)=0.5.

2.3 方差的计算

这个真不会了. 罗皓也没获得化简的式子. 还是把他难看的真迹秀一下.
在这里插入图片描述

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值