文章目录
前言
This
Article
is
delicated
for
All
\text { \bf {This Article is delicated for All} }
This Article is delicated for All
本文笔者希望给予笔者一个对概率论的简述,依然采用最大化避免复杂数学论证,希望使用一些比较生动有趣的方式去激发笔者对于数理统计的兴趣。Of course,笔者还是希望如遇纰漏,肯请读者指正。
一、概率论的历史故事
“概率” 起源
概率论的起源可以追溯到古希腊时期,当时人们就开始思考掷骰子的概率问题。然而,最著名的故事是关于意大利数学家Gerolamo Cardano的。在16世纪,Cardano写下了他的 《算术》 一书,在这本书中,他首次系统地探讨了掷骰子的概率问题。然而,他发现他的一位学生总是用一种特殊的方法掷骰子,这种方法可以使得某些数字更容易出现。Cardano感到非常惊讶,因为他并没有预料到这种情况。
The soul of the world, which “cannot be understood without God,” directs the work of nature, and, “in the process of generating things, produces supercelestial lives and multiplicity” (De arcanis aeternitatis, OO, X, 6a).
世界的本质,永远难以违抗天命,上帝在创造世界的时候赋予了它我们难以想象的精彩绝伦和复杂多样 (笔者拙劣翻译)
早期人类已经发现,即使我们认为自己已经理解了概率的基本原理,我们仍然可能被人们的直觉所欺骗。
“概率论” 发展
抛硬币问题
笔者此处选择将 “概率” 一词换为 “概率论”,因为在十七世纪,现代数学的基本框架已经比较完善,人类有机会使用系统化的工具 MATHEMATICS 去改进对于自然科学的探索,固然概率论就有一席之地了。
The Story of Probability ⟶ Probability Theory \text { \bf The Story of Probability } \longrightarrow \text { \bf Probability Theory} The Story of Probability ⟶ Probability Theory
在17世纪早期,法国数学家Blaise Pascal和Pierre de Fermat开始研究抛硬币的概率问题。他们的讨论涉及到一个非常基本的问题:如果两个人玩一场抛硬币的游戏,他们各自抛硬币直到某一方先出现了连续的两次正面或反面,那么获胜的概率是多少?这个问题看似简单,但它引发了人们对概率问题更深入的探究。
数理统计的广泛运用
20世纪初,统计学开始成为一门独立的学科。英国统计学家Ronald Fisher、Karl Pearson和Jerzy Neyman等人在这个领域做出了杰出的贡献。他们发展了许多统计学方法,包括方差分析、回归分析和假设检验等。
二、概率论(Theory of Probability)
集合论(Set Theory)
在19世纪末20世纪初期, “集合论” 这一学科是隶属于分析学和拓扑学的. 这其中原因之一便是 康托(Cantor) 在集合论上的工作给当时的数学家带来了一个全新的严格理解 “实数” 和 “函数” 的方式. 在此之前, 一个函数总是由某些规则或某些公式给出, 这使得"存在一个函数/对于任意函数"这类表述显得不够严谨: 在给出 “什么是一个函数” 的数学回答之前, 我们无法严格证明或证伪对函数进行 量化 的语句.
统计是一门应用型学科,其目的是将现实中发生的 事件(event) 或是可能发生的事件量化进行计算,这里就提及了一个很重要的point:
如何将事件量化?
\text { \bf {如何将事件量化?} }
如何将事件量化?
这就是为什么我们需要 “集合论”,在我们真实场景下搜集到的数据可能是无量纲或是不同量纲的数据;但是我们希望使用集合的方式将同类项归于同一个组合 C i \mathcal{C_i} Ci ,然后我们就可以进行对集合的数学运算。
概率分布中最重要的三要素 ( Ω , F , P ) (\Omega, \mathcal{F}, P) (Ω,F,P) 中的事件集 F \mathcal{F} F 是样本空间 Ω \Omega Ω 上的 σ \sigma σ 代数, P P P 是 ( Ω , F ) (\Omega, \mathcal{F}) (Ω,F)上的一个 归一化(Normalized) 分布. (公式符号不重要,权当是满足数学家装X欲望的工具)
归一化(Normalized)
在这个章节初始的位置,笔者希望以一个问题的方式开启,
我们为何要将数据归一化?
\text { \bf {我们为何要将数据归一化?} }
我们为何要将数据归一化?
在上一个章节中我们讲过我们需要去将不同量纲的数据进行集合化方便运算,这时候我们就迎来了第二个问题
我们如何将集合运算结果重构成概率模型?
\text { \bf {我们如何将集合运算结果重构成概率模型?} }
我们如何将集合运算结果重构成概率模型?
读者可以注意到上图所示如果对于一般未归一化数据,其在几何不同位置上的 几何比例(量纲) 可能不同,那此时对于数据的运算就也会有所偏差。
J
(
w
,
b
)
=
1
m
∑
i
=
1
m
L
(
y
^
(
i
)
,
y
(
i
)
)
J(w, b)=\frac{1}{m} \sum_{i=1}^m \mathcal{L}\left(\hat{y}^{(i)}, y^{(i)}\right)
J(w,b)=m1i=1∑mL(y^(i),y(i))
上图中所示
J
(
w
,
b
)
J(w, b)
J(w,b)就为一种比较经典的归一化公式,顾名思义为什么是归一函数,何为归一?即是此函数在其实数域内的总合积分为
1
1
1的函数,数学表达即为;
∫
−
∞
+
∞
f
(
x
)
d
x
=
1
\int_{-\infty}^{+\infty} f(x)dx=1
∫−∞+∞f(x)dx=1
很显然,从逻辑上讲也很好理解,当此函数趋于无穷时,函数值收敛为零,不然函数不可能积分为一
lim
x
→
∞
f
(
x
)
=
0
\lim _{x \rightarrow \infty} f(x)=0
x→∞limf(x)=0
番外:量子力学中其中基础理论——薛定谔函数也是基于标准归一化波函数的一个运算(这时候读者应该明白归一化的重要性了吧hhh)
概率密度函数(PDF)
于上文中,我们已经将数据集合化和归一化了,那么这时候我们会发现,得到了一个基于事件的归一化函数,这时候我们就应当考虑,这个函数和概率 P P P有什么联系了
对于图中所示基于事件概率的归一化函数我们就将其称之为概率密度函数(Probablity Density Function),示意概率的几何函数
p ( x 1 < x < x 2 ) = ∫ x 1 x 2 f ( x ) d x = F ( x 2 ) − F ( x 1 ) p\left(x_1<x<x_2\right)=\int_{x_1}^{x_2} f(x) d x=F\left(\mathrm{x}_2\right)-F\left(x_1\right) p(x1<x<x2)=∫x1x2f(x)dx=F(x2)−F(x1)
此时若我们希望得到概率落在 50 % 50\% 50%的概率,即为将此函数 X X X轴方向上函数小于 50 % 50\% 50%的部分进行积分运算,此时我们就能得到一个函数积分的概率 p ( 0 % < x < 50 % ) = ∫ 0 % 50 % f ( x ) d x = F ( 50 % ) − F ( 0 % ) p\left(0\%<x<50\%\right)=\int_{0\%}^{50\%} f(x) d x=F\left(\mathrm50\%\right)-F\left(0\%\right) p(0%<x<50%)=∫0%50%f(x)dx=F(50%)−F(0%)
累计分布函数(CDF)
当读者能够理解概率密度函数(PDF) 的时候,理解起来累计分布函数就会变得尤为容易;
在上一个章节中笔者简单介绍了一下如何运用
P
D
F
PDF
PDF去计算概率,那么,顾名思义,累计分布函数(Cumulative Distribution Function) 就为概率密度函数小于
ε
\varepsilon
ε部分的概率
P
(
x
⩽
ε
)
P(x \leqslant \varepsilon)
P(x⩽ε);
而同样的方法,我们用于计算上图中阴影部分的面积,就为累计分布函数的特解;
F
(
x
)
=
P
(
X
≤
ε
)
=
∫
−
∞
ε
f
(
x
)
d
x
F(x)=P(X \leq \varepsilon)=\int_{-\infty}^{\varepsilon} f(x) d x
F(x)=P(X≤ε)=∫−∞εf(x)dx
而 F ( x ) F(x) F(x)就为累计分布函数,此处 f ( x ) f(x) f(x)即为概率密度函数
总结
当然,有一些声音表示 “统计学是数学,而非科学”,其实笔者比较认可这种说法,自然科学的本质是基于可观测性,而统计在很大程度上是将不可观测的事件给予一个构造出的可观测的模型中。不过,如果对人类生活法阵有贡献的学科,读者也不必去大肆嘲讽其严谨性。