全是个人理解
正态分布是一种广泛出现的连续概率分布,比如身高,分数
二项分布是离散情况下的概率分布
比如仍硬币,正面的可能性是
p
p
p,那么仍
n
n
n 次,
x
x
x 次正面的概率为
(
n
x
)
p
x
(
1
−
p
)
n
−
x
\binom nxp^x(1-p)^{n-x}
(xn)px(1−p)n−x
容易得到均值
μ
=
n
p
\mu=np
μ=np,方差
σ
2
=
n
p
(
1
−
p
)
\sigma^2=np(1-p)
σ2=np(1−p)
并且画柱状图画出来就是钟形,而且和正态分布的概率密度函数特别像
对于均值为
μ
\mu
μ 方差为
σ
2
\sigma^2
σ2 的正态分布长成这个样子
N
(
μ
,
σ
2
)
=
1
2
π
σ
e
−
x
2
2
σ
2
N(\mu,\sigma^2)=\frac{1}{\sqrt {2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}}
N(μ,σ2)=2πσ1e−2σ2x2
接着发现,不妨设二项分布的
p
=
1
2
p=\frac 12
p=21,选择一个
n
n
n,带入
σ
2
=
n
p
(
1
−
p
)
=
n
4
\sigma^2=np(1-p)=\frac n4
σ2=np(1−p)=4n
然后画出图像,是几乎重合的,比如选择
n
=
16
n=16
n=16,我们知道
(
16
8
)
2
16
=
0.196381
\frac{\binom{16}8}{2^{16}}=0.196381
216(816)=0.196381 是二项分布的最中间的值,而将
x
=
μ
x=\mu
x=μ 带入正态分布的函数可以知道这个点的概率密度是
1
2
2
π
=
0.1994711
\frac{1}{2\sqrt{2\pi}}=0.1994711
22π1=0.1994711 是几乎相等的
而这个现象在
n
n
n 更大的时候更明显(更接近连续)
例如
(
36
18
)
2
36
=
0.13206
\frac{\binom{36}{18}}{2^{36}}=0.13206
236(1836)=0.13206,而
1
3
2
π
=
0.132981
\frac{1}{3\sqrt {2\pi}}=0.132981
32π1=0.132981
这启示我们好像可以用
1
n
π
\sqrt{\frac{1}{n\pi}}
nπ1 来估计
(
2
n
n
)
2
2
n
\frac{\binom{2n}{n}}{2^{2n}}
22n(n2n)
很牛的是,斯特林公式告诉我们
n
!
∼
2
π
n
(
n
e
)
n
n!\sim \sqrt{2\pi n}(\frac{n}{e})^n
n!∼2πn(en)n,如果我们来算一下
(
2
n
n
)
2
2
n
∼
2
π
n
(
n
e
)
2
n
2
π
n
(
n
e
)
2
n
=
1
n
π
\frac{\binom{2n}{n}}{2^{2n}}\sim\frac{2\sqrt {\pi n}(\frac{n}{e})^{2n}}{2\pi n(\frac{n}{e})^{2n}}=\sqrt{\frac{1}{n\pi}}
22n(n2n)∼2πn(en)2n2πn(en)2n=nπ1
之前在寻找人们是怎么拟合出正态分布函数的表达式的
就浏览到一个用斯特林公式推的,上面的巧合似乎告诉我们用斯特林公式推挺有道理
还有一种方法
考虑从
[
0
,
1
]
[0,1]
[0,1] 随机一些数出来,随机
n
n
n 次,然后我们取平均,设为
x
1
x_1
x1
然后我们重复上面过程
m
m
m 次,把随出来的值(取平均后)看成
x
2
,
…
,
x
m
x_2,\dots,x_m
x2,…,xm
m
m
m 足够大的时候,可以画出来一个概率密度函数,这个函数其实就是正态分布了
就是说在中间的概率要大很多(中心极限定理)
这感觉起来很正确,但为啥函数会长成
e
k
x
2
e^{kx^2}
ekx2 这种鬼样子呢?
我们先设一个函数,将其取名为误差密度函数
f
(
x
)
f(x)
f(x)
∏
i
=
1
m
f
(
x
−
x
i
)
\prod_{i=1}^mf(x-x_i)
∏i=1mf(x−xi),并且真正的均值
x
‾
\overline x
x 是上面这个关于
x
x
x 函数的极大值点
但经验告诉我们其实均值就是
x
‾
=
∑
x
i
m
\overline x=\frac{\sum x_i}{m}
x=m∑xi
而上面那个函数的极大值点,即
∑
ln
f
(
x
−
x
i
)
\sum \ln f(x-x_i)
∑lnf(x−xi) 的极大值点,就是使
∑
ln
f
(
x
−
x
i
)
′
=
∑
f
′
(
x
−
x
i
)
f
(
x
−
x
i
)
=
0
\sum \ln f(x-x_i)'=\sum \frac{f'(x-x_i)}{f(x-x_i)}=0
∑lnf(x−xi)′=∑f(x−xi)f′(x−xi)=0 的点,设
g
i
(
x
)
=
f
′
(
x
)
f
(
x
)
g_i(x)=\frac{f'(x)}{f(x)}
gi(x)=f(x)f′(x),我们知道
∑
g
i
(
x
‾
−
x
i
)
=
0
\sum g_i(\overline x-x_i)=0
∑gi(x−xi)=0
这个意思是说不管任意
x
i
x_i
xi 怎么变,上面都是 0,那么我们分别对
x
1
,
…
,
x
m
x_1,\dots,x_m
x1,…,xm 求偏导,那么应该都是 0,可以解出来
g
(
x
)
=
k
x
g(x)=kx
g(x)=kx,我们发现
f
′
(
x
)
=
k
x
f
(
x
)
f'(x)=kxf(x)
f′(x)=kxf(x),这启示我们
f
(
x
)
=
C
e
k
x
2
2
f(x)=Ce^{\frac{kx^2}{2}}
f(x)=Ce2kx2
然后要调整积分为 1,最后就可以得到
f
(
x
)
=
1
2
π
σ
e
−
x
2
2
σ
2
f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}}
f(x)=2πσ1e−2σ2x2
看起来很牛逼,其实上面的
L
(
x
)
=
∏
f
(
x
−
x
i
)
L(x)=\prod f(x-x_i)
L(x)=∏f(x−xi) 叫似然函数,就是利用均值既是多项的平均,又是似然函数的极值,从而导出
f
(
x
)
f(x)
f(x) 的性质