最近学了很多东西, 有一个小的感悟, 工科生学数学最重要的是把它当做一个工具来使用, 怎么用是最重要的, 搞懂来龙去脉也重要, 但不必过于强求每个公式都要会推导.
所以我对自己的要求就是, 一定要知道, 每个公式在我所学的科目里是为了解决什么问题而引入的, 然后基本的计算过程我对自己先放低要求, 毕竟可以使用封装好的函数, 所以我的文章重心会放在应用上.
正态分布(高斯分布)
在平差里用来求均值的置信区间.
正态分布在平差这门课程中非常重要, 平差, 也就是要平观测过程中的误差.
误差又分为粗差, 系统误差和随机误差.
根据基础误差理论,可以知道随机误差是服从正态分布的.
基础误差理论中的基础误差并不完全等同于随机误差,
随机误差特点如下:
大小相近的正误差和负误差出现的机率相等,即绝对值相近 ( 或相等 ) 而符号相反的误差以同等的机率出现。
小误差出现的频率高,而大误差出现的频数较低,很大误差出现的机率近于零或极少。
而基础误差假定所有误差都有相同的绝对值, 只有符号不同, 且正负出现的概率相等.
基础误差其实做的是有限次的实验, 也就是二项分布.
f
(
x
)
=
n
!
x
!
(
n
−
x
)
!
p
x
(
1
−
p
)
n
−
x
f(x)=\frac{n !}{x !(n-x) !} p^{x}(1-p)^{n-x}
f(x)=x!(n−x)!n!px(1−p)n−x
p为出现正号的概率, 也就是1/2.
n为实验次数,x是成功次数.
如果把这个推到无限次, 那么n趋近于无穷.p不变.
根据中心极限定理:
如果一个随机变量可以被描述为一系列相同级数的基础误差, 则它是呈正态分布的.
随机变量我个人理解, 就是把文字进行量化. 比如抛硬币的结果是正反面, 那么我可以用1表示正面, 0表示反面, 这个结果就是随机变量.
实际运用中当 n 很大时一般都用正态分布来近似计算二项分布.
如果随机变量服从正态分布, 可表示为:
L
∼
N
(
μ
,
σ
2
)
L \sim N\left(\mu, \sigma^{2}\right)
L∼N(μ,σ2)
L-正态分布变量
μ
\mu
μ:期望值, 决定曲线位置
σ
\sigma
σ:标准差, 决定曲线形状
标准正态分布
μ
=
0
σ
2
=
1
\begin{aligned} &\mu=0\\ &\sigma^{2}=1 \end{aligned}
μ=0σ2=1
表示标准正态分布, 可写为
L
∼
N
(
0
,
1
)
L \sim N(0,1)
L∼N(0,1)
概率密度函数可表示为:
φ
(
y
)
=
1
2
π
⋅
e
(
−
y
2
2
)
with
y
=
x
−
μ
σ
\begin{aligned} &\varphi(y)=\frac{1}{\sqrt{2 \pi}} \cdot e^{\left(-\frac{y^{2}}{2}\right)}\\ &\text { with } y=\frac{x-\mu}{\sigma} \end{aligned}
φ(y)=2π1⋅e(−2y2) with y=σx−μ
至于这个标准正态分布有什么意义, 我自己的猜想是通过来研究这个标准正态分布来推导出一系列正态分布的性质, 以后用到其他非标准的正态分布, 可以往上面套用.
分布函数
也就是随机变量小于某个值的概率.
F
(
x
)
=
P
(
L
≤
x
)
=
∫
−
∞
x
f
(
v
)
d
v
F(x)=P(L \leq x)=\int_{-\infty}^{x} f(v) d v
F(x)=P(L≤x)=∫−∞xf(v)dv
f(v)是概率密度函数,也就是随机变量在整个定义域内的分布情况, 多的地方f(v)就大. 其实不算严谨, 因为单个值的密度函数值是为0的. 但是可以这么理解吧.
分布函数的应用
知道分布函数就可以求随机变量在分割区间出现的概率.
P
(
a
≤
L
≤
b
)
=
F
(
b
)
−
F
(
a
)
=
∫
a
b
f
(
v
)
d
v
P(a \leq L \leq b)=F(b)-F(a)=\int_{a}^{b} f(v) d v
P(a≤L≤b)=F(b)−F(a)=∫abf(v)dv
F
(
b
)
=
∫
−
∞
b
f
(
x
)
d
x
and
F
(
a
)
=
∫
−
∞
a
f
(
x
)
d
x
F(b)=\int_{-\infty}^{b} f(x) d x \quad \text { and } \quad F(a)=\int_{-\infty}^{a} f(x) d x
F(b)=∫−∞bf(x)dx and F(a)=∫−∞af(x)dx
在平差里, 最常见的随机变量就是随机误差
ε
\boldsymbol{\varepsilon}
ε.
要把随机误差变成符合正态分布的变量的话, 就需要将其进行变换:
L
∼
N
(
μ
,
σ
2
)
⇒
(
ε
ˉ
=
L
−
μ
σ
)
=
ε
σ
∼
N
(
0
,
1
)
L \sim N\left(\mu, \sigma^{2}\right) \Rightarrow\left(\bar{\varepsilon}=\frac{L-\mu}{\sigma}\right)=\frac{\varepsilon}{\sigma} \sim N(0,1)
L∼N(μ,σ2)⇒(εˉ=σL−μ)=σε∼N(0,1)
ε
ˉ
\bar{\varepsilon}
εˉ: standardized random deviation, 不是均值! 这个加一个bar的表示方法真的很容易让人误解.
如果我们想求一个随机误差在一个对称区间[-y,y]之间的概率.
y
=
x
−
μ
σ
y=\frac{x-\mu}{\sigma}
y=σx−μ
那么先将其化为标准正态分布, 求标准随机误差的概率. 最后再解除标准化. (这个思想真的不要太常见!!! )
P
(
−
y
≤
ε
ˉ
≤
y
)
=
Φ
(
y
)
−
Φ
(
−
y
)
Φ
(
−
y
)
=
1
−
Φ
(
y
)
ε
ˉ
=
ε
σ
Φ
(
y
)
−
(
1
−
Φ
(
y
)
)
=
2
Φ
(
y
)
−
1
P
(
−
y
≤
ε
σ
≤
y
)
=
2
Φ
(
y
)
−
1
−
y
≤
ε
σ
≤
y
−
y
⋅
σ
≤
ε
≤
y
⋅
σ
\begin{array}{c} P(-y \leq \bar{\varepsilon} \leq y)=\Phi(y)-\Phi(-y) \\ \Phi(-y)=1-\Phi(y) \\ \bar{\varepsilon}=\frac{\varepsilon}{\sigma} \\ \Phi(y)-(1-\Phi(y))=2 \Phi(y)-1 \\ P\left(-y \leq \frac{\varepsilon}{\sigma} \leq y\right)=2 \Phi(y)-1 \\ -y \leq \frac{\varepsilon}{\sigma} \leq y \\ -y \cdot \sigma \leq \varepsilon \leq y \cdot \sigma \end{array}
P(−y≤εˉ≤y)=Φ(y)−Φ(−y)Φ(−y)=1−Φ(y)εˉ=σεΦ(y)−(1−Φ(y))=2Φ(y)−1P(−y≤σε≤y)=2Φ(y)−1−y≤σε≤y−y⋅σ≤ε≤y⋅σ
最后可得:
P
(
−
y
⋅
σ
≤
ε
≤
y
⋅
σ
)
=
P
(
∣
ε
∣
≤
y
⋅
σ
)
=
2
Φ
(
y
)
−
1
P(-y \cdot \sigma \leq \varepsilon \leq y \cdot \sigma)=P(|\varepsilon| \leq y \cdot \sigma)=2 \Phi(y)-1
P(−y⋅σ≤ε≤y⋅σ)=P(∣ε∣≤y⋅σ)=2Φ(y)−1
Φ
(
y
)
=
P
(
ε
ˉ
≤
y
)
=
∫
−
∞
y
φ
(
v
)
d
v
ε
ˉ
∼
N
(
0
,
1
)
φ
(
v
)
=
1
2
π
⋅
exp
(
−
v
2
2
)
\begin{aligned} &\Phi(y)=P(\bar{\varepsilon} \leq y)=\int_{-\infty}^{y} \varphi(v) d v\\ &\bar{\varepsilon} \sim N(0,1)\\ &\varphi(v)=\frac{1}{\sqrt{2 \pi}} \cdot \exp \left(-\frac{v^{2}}{2}\right) \end{aligned}
Φ(y)=P(εˉ≤y)=∫−∞yφ(v)dvεˉ∼N(0,1)φ(v)=2π1⋅exp(−2v2)
就可以根据
Φ
(
y
)
\Phi(y)
Φ(y)去算一些常用的概率, 比如:
P
(
∣
ε
∣
≤
σ
)
=
0.6827
≈
68.3
%
P
(
∣
ε
∣
≤
3
σ
)
=
0.9973
≈
99.7
%
\begin{array}{l} P(|\varepsilon| \leq \sigma)=0.6827 \approx 68.3 \% \\ P(|\varepsilon| \leq 3 \sigma)=0.9973 \approx 99.7 \% \end{array}
P(∣ε∣≤σ)=0.6827≈68.3%P(∣ε∣≤3σ)=0.9973≈99.7%
Φ
(
y
)
\Phi(y)
Φ(y)是有一张表的, 去查就好了, 当然也可以根据标准正态分布的公式自己去算.
这里有个重要的性质就是三倍标准差原理, 因为99.7%的数据都在三倍标准差范围内, 所以三维标准差范围外的可以认为是异常值, 就不要它了. 因为随机变量在三倍标准差之外的概率很小很小, 只有0.3%.
正态分布的置信区间
引入区间估计的优越性在于, 广撒网~?
点估计可能很难命中真实值, 但是区间估计的命中概率将会极大提高.
置信区间可以计算出误差范围[a,b]
也就是说, 我做100次抽样, 算出100个[a,b], 有95个[a,b]都包含了真值.
正因为在100个置信区间里有95个置信区间包括了真实值,所以当我们只做了一次置信区间时,我们也认为这个区间是可信的,是包含了总体参数真实值的。
估计的最值目标都是找出真值, 但我们永远也不会知道这个真值是多少, 只能用期望值来代替.
如果观测值符合:
L
∼
N
(
μ
,
σ
2
)
L \sim N\left(\mu, \sigma^{2}\right)
L∼N(μ,σ2)
且
μ
\mu
μ未知,
σ
2
\sigma^{2}
σ2已知.
误差概率
α
\alpha
α在实践中通常用
α
=
5
%
(
0.05
)
\alpha=5 \%(0.05)
α=5%(0.05) or
α
=
1
%
(
0.01
)
\alpha=1 \%(0.01)
α=1%(0.01)来表示.
定义如下:
P
(
a
≤
μ
≤
b
)
=
1
−
α
P
(
μ
<
a
)
=
P
(
μ
>
b
)
=
α
/
2
\begin{aligned} &P(a \leq \mu \leq b)=1-\alpha\\ &P(\mu<a)=P(\mu>b)=\alpha / 2 \end{aligned}
P(a≤μ≤b)=1−αP(μ<a)=P(μ>b)=α/2
现在想要求得的是a,b.
通常就是划一个置信区间, 然后求具体的观测值.
P
(
−
y
≤
ε
ˉ
≤
y
)
=
2
Φ
(
y
)
−
1
P(-y \leq \bar{\varepsilon} \leq y)=2 \Phi(y)-1
P(−y≤εˉ≤y)=2Φ(y)−1
P
=
2
Φ
(
y
)
−
1
=
1
−
α
P=2 \Phi(y)-1=1-\alpha
P=2Φ(y)−1=1−α
Φ
(
y
)
=
1
−
α
2
\Phi(y)=1-\frac{\alpha}{2}
Φ(y)=1−2α
可以查表得y.
然后用
a
=
l
−
y
σ
b
=
l
+
y
σ
\begin{aligned} &a=l-y \sigma\\ &b=l+y \sigma \end{aligned}
a=l−yσb=l+yσ
求出a,b
置信区间越小, 错误概率越大.
S
=
1
−
α
S=1-\alpha
S=1−α
卡方分布
在平差里用来求标准差的置信区间.
定义:
χ
f
2
=
∑
j
=
1
f
X
j
2
\chi_{f}^{2}=\sum_{j=1}^{f} X_{j}^{2}
χf2=j=1∑fXj2
X
j
X_{j}
Xj是独立的标准正态随机变量, 也就是说:
X
j
∼
N
(
0
,
1
)
with
j
=
1
,
2
,
…
,
f
X_{j} \sim N(0,1) \text { with } j=1,2, \dots, f
Xj∼N(0,1) with j=1,2,…,f
f是自由度.
自由度为n的卡方分布可以视为独立同分布的n个标准正态分布平方和
卡方分布可以定义和计算方差
概率密度函数
f
(
t
)
=
{
1
2
f
2
Γ
(
f
2
)
⋅
t
f
2
−
1
⋅
exp
(
−
t
2
)
for
t
>
0
f(t)=\left\{\frac{1}{2^{\frac{f}{2}} \Gamma\left(\frac{f}{2}\right)} \cdot t^{\frac{f}{2}-1} \cdot \exp \left(-\frac{t}{2}\right) \text { for } t>0\right.
f(t)=⎩⎨⎧22fΓ(2f)1⋅t2f−1⋅exp(−2t) for t>0
t
=
χ
2
t=\chi^{2}
t=χ2
Γ
(
f
2
)
=
∫
0
∞
t
f
2
−
1
⋅
exp
(
−
f
2
)
d
t
\Gamma\left(\frac{f}{2}\right)=\int_{0}^{\infty} t^{\frac{f}{2}-1} \cdot \exp \left(-\frac{f}{2}\right) d t
Γ(2f)=∫0∞t2f−1⋅exp(−2f)dt
自由度越小越不对称.
根据中心极限定理(在某些情况下,当添加独立随机变量时,即使原始变量本身未呈正态分布,其正确归一化的和也趋于正态分布), 当f>50时:
f
(
t
)
≈
φ
(
y
)
y
=
t
−
f
2
f
Y
∼
N
(
0
,
1
)
χ
f
2
∼
N
(
f
,
2
f
)
\begin{aligned} &f(t) \approx \varphi(y)\\ &y=\frac{t-f}{\sqrt{2 f}}\\ &Y\sim N(0, 1)\\ &\chi_{f}^{2} \sim N(f, 2 f) \end{aligned}
f(t)≈φ(y)y=2ft−fY∼N(0,1)χf2∼N(f,2f)
经验方差
s
2
=
1
n
∑
j
=
1
n
ε
j
2
s^{2}=\frac{1}{n} \sum_{j=1}^{n} \varepsilon_{j}^{2}
s2=n1j=1∑nεj2
标准化误差:
ε
ˉ
j
=
ε
j
−
0
σ
∼
N
(
0
,
1
)
ε
j
2
=
σ
2
ε
ˉ
j
2
\begin{array}{l} \bar{\varepsilon}_{j}=\frac{\varepsilon_{j}-0}{\sigma} \sim N(0,1) \\ \varepsilon_{j}^{2}=\sigma^{2} \bar{\varepsilon}_{j}^{2} \end{array}
εˉj=σεj−0∼N(0,1)εj2=σ2εˉj2
s
2
=
σ
2
f
∑
j
=
1
f
ε
ˉ
j
2
=
σ
2
f
χ
f
2
s^{2}=\frac{\sigma^{2}}{f} \sum_{j=1}^{f} \bar{\varepsilon}_{j}^{2}=\frac{\sigma^{2}}{f} \chi_{f}^{2}
s2=fσ2j=1∑fεˉj2=fσ2χf2
t分布
用于检验均值是否不同
样本量小的时候, 用来计算均值的置信区间
F分布
用于检验方差是否不同
这个就可以用来在不知道两个总体的均值,但知道其中某个方差的情况下,假设另一方差(F检验)
参考:
https://wiki.mbalib.com/wiki/%E9%9A%8F%E6%9C%BA%E8%AF%AF%E5%B7%AE
http://hongyitong.github.io/2016/11/13/%E4%BA%8C%E9%A1%B9%E5%88%86%E5%B8%83%E3%80%81%E6%B3%8A%E6%9D%BE%E5%88%86%E5%B8%83%E3%80%81%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83/
https://www.zhihu.com/question/20183513
https://blog.csdn.net/liangzuojiayi/article/details/77967782
https://demonstrations.wolfram.com/ChiSquaredDistributionAndTheCentralLimitTheorem/