【本科数学基础知识整理】
前言
一、高等数学
二、微积分
1.
三、
六、随机变量
似然函数 表示给定样本
X
=
x
X=x
X=x 时参数的可能性;
概率 表示了在给定参数
θ
\theta
θ 时参数的可能性。
七、概率论
7.1 概念解释(PDF、PMF、CDF)
7.1.1 PMF:概率质量函数
PMF (probability mass function, 概率质量函数):是对离散随机变量 在各特定取值上的概率。
如果
X
X
X 是 离散型 随机变量,定义概率质量函数为
f
X
(
x
)
f_X(x)
fX(x) ,PMF其实就是高中所学的离散型随机变量的分布律,即
f
X
(
x
)
=
P
r
(
X
=
x
)
f_X(x) =Pr(X=x)
fX(x)=Pr(X=x)
比如对于掷一枚均匀硬币,如果正面令
X
=
1
X=1
X=1,如果反面令
X
=
0
X=0
X=0,那么它的PMF就是
f
X
(
x
)
=
{
0.5
,
if
x
∈
{
0
,
1
}
0
,
if
x
∉
{
0
,
1
}
f_{X}(x)=\left\{\begin{array}{l}0.5 , \text { if } x \in\{0,1\} \\ 0, \text { if } x \notin\{0,1\}\end{array}\right.
fX(x)={0.5, if x∈{0,1}0, if x∈/{0,1}
7.1.2 PDF:概率密度函数
PDF(probability density function, 概率密度函数) 则是对连续型随机变量的定义。与PMF不同的是PDF在特定点上的值并不是该点的概率,连续随机概率事件只能求一段区域内发生事件的概率,通过对这段区间进行积分来就是该区间的概率。
如果
X
X
X 是 连续型 随机变量,定义概率密度函数为
f
X
(
x
)
f_X(x)
fX(x),用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率,即
Pr
(
a
≤
X
≤
b
)
=
∫
a
b
f
X
(
x
)
d
x
\operatorname{Pr}(a \leq X \leq b)=\int_{a}^{b} f_{X}(x) d x
Pr(a≤X≤b)=∫abfX(x)dx
7.1.3 CDF:累积分布函数
CDF : 累积分布函数 (cumulative distribution function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。
不管是什么类型(连续/离散/其他)的随机变量,都可以定义它的累积分布函数,有时简称为分布函数。
- 对于连续型随机变量,显然有:
F X ( x ) = Pr ( X ≤ x ) = ∫ − ∞ x f X ( t ) d t F_{X}(x)=\operatorname{Pr}(X \leq x)=\int_{-\infty}^{x} f_{X}(t) d t FX(x)=Pr(X≤x)=∫−∞xfX(t)dt - 对于离散型随机变量,其CDF是分段函数,比如举例中的掷硬币随机变量,它的CDF为:
F X ( x ) = Pr ( X ≤ x ) { 0 if x < 0 1 2 if 0 ≤ x < 1 1 if x ≥ 1 F_{X}(x)=\operatorname{Pr}(X \leq x) \begin{cases}0 & \text { if } x<0 \\ \frac{1}{2} & \text { if } 0 \leq x<1 \\ 1 & \text { if } x \geq 1\end{cases} FX(x)=Pr(X≤x)⎩⎪⎨⎪⎧0211 if x<0 if 0≤x<1 if x≥1
7.1.4 为什么需要分布函数?
对于离散型随机变量,可以直接用分布律来描述其统计规律性;而对于连续型随机变量(非离散型的随机变量),我们无法一一列举出随机变量的所有可能取值,所以它的概率分布不能像离散随机变量那样用分布律进行描述。于是引入PDF,用积分来求随机变量落入某个区间的概率。
分布律(PMF)不能描述连续型随机变量,密度函数(PDF)不能描述离散随机变量,因此需要找到一个统一方式描述随机变量统计规律,这就有了分布函数。
另外,在现实生活中,有时候人们感兴趣的是随机变量落入某个范围内的概率是多少,如掷骰子的数小于3点的获胜,那么考虑随机变量落入某个区间的概率就变得有现实意义了,因此引入分布函数很有必要。
7.1.5 分布函数的意义
分布函数 F ( x ) F (x ) F(x)在点 x x x 处的函数值表示 X X X落在区间 ( − ∞ , x ] ( − ∞ , x ] (−∞,x]内的概率,所以分布函数就是定义域为 R R R的一个普通函数,因此我们可以把概率问题转化为函数问题,从而可以利用普通的函数知识来研究概率问题,增大了概率的研究范围。
7.5 独立性
多维随机变量
联合分布
联合分布函数
F
(
x
,
y
)
F(x,y)
F(x,y) 的性质:
- 离散型二维随机变量:
举栗:
- 连续型二维随机变量:
F ( x , y ) F(x,y) F(x,y) :联合概率分布
f ( x , y ) f(x,y) f(x,y):概率密度函数、概率质量函数
关系: F ( x , y ) = ∫ − ∞ y ∫ − ∞ x f ( u , v ) d u d v F(x, y)=\int_{-\infty}^{y} \int_{-\infty}^{x} f(u, v) d u d v F(x,y)=∫−∞y∫−∞xf(u,v)dudv
边缘分布
-
方差
-
大数定律
-
马尔可夫不等式
-
切比雪夫不等式
切比雪夫不等式应用举例:
-
中心极限定理
(http://onlinestatbook.com/stat_sim/sampling_dist/index.html)
-
后验概率估计
- 拼写纠正实例:
P
(
h
∣
D
)
∝
P
(
h
)
∗
P
(
D
∣
h
)
P(h \mid D) \propto P(h) * P(D \mid h)
P(h∣D)∝P(h)∗P(D∣h)
P
(
h
)
P(h)
P(h) 表示先验概率
- 垃圾邮件过滤实例
八、常见分布
8.1 正态分布
若随机变量 X X X 服从一个数学期望为 μ \mu μ、方差为 σ 2 \sigma^{2} σ2 的正态分布,记为 N ( μ , σ 2 ) N(\mu,\sigma^{2}) N(μ,σ2)。其概率密度函数为正态分布的期望值 μ \mu μ决定了其位置,其标准差 σ \sigma σ决定了分布的幅度。当 μ = 0 , σ = 1 \mu=0,\sigma=1 μ=0,σ=1 时的正态分布是标准正态分布。
f ( x ∣ μ , σ ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 f(x \mid \mu, \sigma)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} f(x∣μ,σ)=2πσ21e−2σ2(x−μ)2
8.2 二项分布
让我们来看看玩板球这个例子。假设你今天赢了一场比赛,这表示一个成功的事件。你再比了一场,但你输了。如果你今天赢了一场比赛,但这并不表示你明天肯定会赢。我们来分配一个随机变量 X X X,用于表示赢得的次数。
X X X可能的值是多少呢?它可以是任意值,这取决于你掷硬币的次数。只有两种可能的结果,成功和失败。因此,成功的概率=0.5,失败的概率可以很容易地计算得到: q = p − 1 = 0.5 q=p-1=0.5 q=p−1=0.5。
二项式分布就是只有两个可能结果的分布,比如成功或失败、得到或者丢失、赢或败,每一次尝试成功和失败的概率相等。结果有可能不一定相等。如果在实验中成功的概率为0.2,则失败的概率可以很容易地计算得到 q = 1 − 0.2 = 0.8 q=1-0.2=0.8 q=1−0.2=0.8。
每一次尝试都是独立的,因为前一次投掷的结果不能决定或影响当前投掷的结果。只有两个可能的结果并且重复 n n n次的实验叫做二项式。二项分布的参数是 n n n和 p p p,其中 n n n是试验的总数, p p p是每次试验成功的概率。
在上述说明的基础上,二项式分布的属性包括:
- 每个试验都是独立的。
- 在试验中只有两个可能的结果:成功或失败。
- 总共进行了n次相同的试验。
- 所有试验成功和夫败的概率是相同的。(试验是一样的)
Binom ( k ∣ N , p ) = ( N k ) p k ( 1 − p ) N − k \operatorname{Binom}(k \mid N, p)=\left(\begin{array}{c} N \\ k \end{array}\right) p^{k}(1-p)^{N-k} Binom(k∣N,p)=(Nk)pk(1−p)N−k
二项分布的均值 E ( X ) = n p E(X)=np E(X)=np,方差 V a r ( X ) = n p ( 1 − p ) Var(X)=np(1-p) Var(X)=np(1−p)。
8.3 泊松分布
- 公式
f ( x ∣ λ ) = λ x x ! e − λ f(x \mid \lambda)=\frac{\lambda^{x} }{x !}e^{-\lambda} f(x∣λ)=x!λxe−λ
P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , ⋯ P(X=k)=\frac{\lambda^{k}}{k !} e^{-\lambda}, k=0,1, \cdots P(X=k)=k!λke−λ,k=0,1,⋯
泊松分布的参数 λ \lambda λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。泊松分布的 期望 和 方差 均为 λ \lambda λ。
现实生活多数服从于泊松分布,假设你在一个呼叫中心工作,一天里你大概会接到多少个电话?它可以是任何一个数字。现在,呼叫中心一天的呼叫总数可以用泊松分布来建桃。这里有一些例子:
- 医院在一天内录制的紧急电话的数量。
- 某个地区在一天内报告的夫窃的数量。
- 在一小时内抵达沙龙的客户人数。·在特定城市上报的自杀人数。
- 书中每一页打印错误的数量。泊松分布适用于在随机时间和空间上发生事件的情况。
其中,我们只关注事件发生的次数。当以下假设有效时,则称为泊松分布
- 任何一个成功的事件都不应该影响另一个成功的事件。
- 在短时间内成功的概率必须等于在更长的间内成功的概率。
- 时间间隔很小时,在给间隔时间内成功的概率趋向于零。
泊松分布中使用了这些符号:
- λ \lambda λ 是事件发生的速率,即单位时间内事件发生的次数。例如一小时接听了8个电话。
- t t t 是时间间隔的长
-
X
X
X 是该时间间隔内的事件数。
其中, X X X称为泊松随机变量, X X X的概率分布称为泊松分布。
令 u u u 表示长度为 t t t 的间隔中的平均事件数。那么, u = λ ∗ t u = \lambda*t u=λ∗t。
例如说一个医院中,每个病人来看病都是随机并独立的概率,则该医院一天(或者其他特定时间段,一小时,一周等等)接纳的病人总数可以看做是一个服从poisson分布的随机变量。但是为什么可以这样处理呢? 通俗定义:假定一个事件在一段时间内随机发生,且符合以下条件:
- (1) 将该时间段无限分隔成若干个小的时间段,在这个接近于零的小时间段里,该事件发生一次的概率与这个极小时间段的长度成正比。
- (2) 在每一个极小时间段内,该事件发生两次及以上的概率恒等于零。
- (3) 该事件在不同的小时间段里,发生与否相互独立。
则该事件称为poisson process。
这个第二定义就更加利于大家理解了,回到医院的例子之中,如果我们把一天分成24个小时,或者24 * 60分钟,或者24 * 3600秒。时间分的越短,这个时间段里来病人的概率就越小(比如说医院在正午12点到正午12点又一毫秒之间来病人的概率是不是很接近于零?)。条件一符合。
另外如果我们把时间分的很细很细,是不是同时来两个病人(或着两个以上的病人)就是不可能的事件?即使两个病人同时来,也总有一个人先迈步子跨进医院大门吧。条件二也符合。倒是条件三的要求比较苛刻。应用到实际例子中就是说病人们来医院的概率必须是相互独立的,如果不是,则不能看作是poisson分布。
- 举例
已知平均每小时出生3个婴儿,请问下一个小时,会出生几个? 有可能一下子出生6个,也有可能一个都不出生。这是我们没法知道的。泊松分布就是描述某段时间内,事件具体的发生概率。
泊松分布就是捕述某段时间内,事件具体的发生概率。
P ( N ( t ) = n ) = ( λ t ) n e − λ t n ! P(N(t)=n)=\frac{(\lambda t)^{n} e^{-\lambda t}}{n !} P(N(t)=n)=n!(λt)ne−λt
上面就是泊松分布的公式。等号的左边, P P P表示概率, N N N表示某种函数关系, t t t表示时间, n n n表示数量,1小时内出生3个婴儿的概率,就表示为 P ( N ( 1 ) = 3 ) P(N(1)= 3) P(N(1)=3)。等号的右边, λ \lambda λ表示事件的频率。
P ( N ( 2 ) = 0 ) = ( 3 × 2 ) 0 e − 3 × 2 0 ! ≈ 0.0025 P(N(2)=0)=\frac{(3 \times 2)^{0} e^{-3 \times 2}}{0 !} \approx 0.0025 P(N(2)=0)=0!(3×2)0e−3×2≈0.0025
接下来两个小时,一个婴儿都不出生的概率是0.25%,基木不可能发生。
8.4 均匀分布
8.5 卡方分布(Chi-Squared Distribution)
- 公式
f ( x ∣ k ) = { x k 2 − 1 e − x 2 2 k 2 Γ ( k 2 ) , if x > 0 0 , otherwise f(x \mid k)= \begin{cases}\frac{x^{\frac{k}{2}-1} e^{-\frac{x}{2}}}{2^{\frac{k}{2}} \Gamma\left(\frac{k}{2}\right)}, & \text { if } x>0 \\ 0, & \text { otherwise }\end{cases} f(x∣k)=⎩⎨⎧22kΓ(2k)x2k−1e−2x,0, if x>0 otherwise
其中, Γ ( n ) = ( n − 1 ) ! \Gamma(n)=(n-1)! Γ(n)=(n−1)!。
卡方分布 通俗的说就是通过小数量的样本容量去预估总体容量的分布情况。
卡方检验 就是统计样本的实际观测值与理论推断值之间的偏离程度。
若 n n n个相互独立的随机变量 ξ 1 , ξ 2 , ⋯ , ξ n \xi_1,\xi_2,\cdots,\xi_n ξ1,ξ2,⋯,ξn 均服从标准正态分布(也称独立同分布于标准正态分布),则这 n n n个服从标准正态介布的随机变量的 平方和 构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。
自由度:假设你现在手头有3个样本。因为样本具有随机性,所以它们取值不定。但是假设出于某种原因,我们需要让样本均值固定,比如说0。那么这时真正取值"有随机性"的样本只有2个。
卡方检验的基本思想是根据样本数据推断总体的频次与期望频次是否有显著性差异
8.6 Beta分布
- 公式
Beta ( x ∣ α , β ) = x α − 1 ( 1 − x ) β − 1 B ( α , β ) \operatorname{Beta}(x \mid \alpha, \beta)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)} Beta(x∣α,β)=B(α,β)xα−1(1−x)β−1
其中, B ( α , β ) = Γ ( α ) Γ ( β ) Γ ( α + β ) B(\alpha, \beta)=\frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha+\beta)} B(α,β)=Γ(α+β)Γ(α)Γ(β), Γ ( n ) = ( n − 1 ) ! \Gamma(n)=(n-1)! Γ(n)=(n−1)!。 α \alpha α和 β \beta β可以分别理解为 成功 和 失败 的次数。
beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它对以给出了所有概率出现的可能性大小。
举一个简单的例子,熟悉棒球运动的都知道有一个指标就是棒球击球率(pating average),就是用一个运动员击中的球数除以击球的总数,我们一般认为0.266是正常水平的击球率,而如果击球率高达0.3就被认为是非常优秀的。
现在有一个棒球运动员,我们希望能够预测他在这一赛季中的棒球击球率是多少。你可能就会直接计算棒球击球率,用击中的数除以击球数。但是如果这个棒球运动员只打了一次,而且还命中了,那么他就击球率就是100%了,这显然是不合理的,因为根据棒球的历史信息,我们知道这个击球率应该是0.215到0.36之间才对啊。
对于这个问题一个最好的方法就是用beta分布,这表示在我们没有看到这个运动员打球之前,我们就有了一个大概的范围。beta分布的定义域是(0.1)这就跟概率的范围是一样的。
接下来我们将这些先验信息转换为beta分布的参数,我们知道一个击球率应该是平均0.27左右,而他的范围是0.21到0.35,那么根据这个信息,我们可以取 α = 81 , β = 219 \alpha=81,\beta=219 α=81,β=219(先验知识:击中了81次,未击中219次)。
之所以取这两个参数是因为:
-
beta分布的均值是从图中可以看到这个分布主要落在了(0.2,0.35)间,这是从经验中得出的合理的范围。
-
在这个例子里,我们的x轴就表示各个击球率的取值,x对应的y值就是这个击球率所对应的概率。也就是说beta分布可以看作一个概率的概率分布。
-
α 0 \alpha_0 α0和 β 0 \beta_0 β0是一开始的参数,在这里是81和219。当 α \alpha α 增加了1(击中了一次), β \beta β没有增加(没有漏球)。这就是我们的新的beta分布Beta(81+1,219)
-
可以看到这个分布其实没多大变化,这是因为只打了1次球并不能说明什么问题。但是如果我们得到了更多的数据,假设一共打了300次,其中击中了100次,200次没击中,那么这一新分布就是:Beta(81+100,219+200)
-
图中红色和绿色曲线几乎重合了。
-
注意到这个曲线变得更加尖,并且平移到了一个右边的位置,表示比平均水平要高。因此,对于一个我们不知道概率是什么,而又有一些合理的猜测时beta分布能很好的作为一个表示概率的概率分布。
- 参数分析
先验知识越多越确信。
九、核函数变换
9.1 核函数的目的
分类问题(低维不可分,高维也许就可分了)
9.2 线性核函数
9.3 多项式核函数
9.4 高斯核函数
十、熵与激活函数
10.1 熵
A集合的熵小,而B集合的熵较大。
10.2 激活函数
- Sigmoid 函数
- Tanh函数
- ReLU函数
- Leaky ReLU
十一、回归分析
- 相关分析 是研究两个或两个以上的变量之间相关程度及大小的一种统计方法
- 回归分析 是寻找存在相关关系的变量间的数学表达式,并进行统计推断的一种统计方法。
在对回归分析进行分类时,主要有两种分类方式:
a. 根据变量的数目,可以分类一元回归、多元回归
b. 根据自变量与因变量的表现形式,分为线性与非线性
所以,回归分析包括四个方向:一元线性回归分析、多元线性回归分析、一元非线性回归分析、多元非线性回归分析。
11.1 回归直线的拟合优度
y
y
y : 样本值、实际值
y
^
\hat{y}
y^:估计值
y
‾
\overline{y}
y:均值
11.2 判定系数
11.3 显著性检验
显著性检验的主要目的是根据所建立的估计方程用自变量x来估计或预测因变量y的收值。当建立了估计方程后,还不能马上:进行估计或预测,因为该估计方程是根据样本数据得到的,它是否真实的反映了变量x和y之间的关系,则需要通过检验后才能证实。
根据样木数据拟合回归方程时,实际上就已经假定变量x与y之间存在着线性关系,并假定误差项是一个服从正态分布的随机变量,几具有相同的方差。但这些假设是否成立需要检验
显著性检验包括两方面:
- 线性关系检验
- 回归系数检验
十二、假设检验
12.1 基础知识
假设检验:
- 什么是假设:对总体参数(均值,比例等)的具体数值所作的陈述。比如,我认为新的配方的药效要比原米的更好。
- 什么是假设检验:先对总体的参数提出某种假设,然后利用样本的信息判断假设是否成立的过程。比如,上:面的假设我是要接受还是拒绝呢。
假设检验的应用:
- 推广新的教育方案后,教学效果是否有所提高
- 醉驾判定为刑事犯罪后是否会使得交通事故减少。
- 男生和女生在选文理科时是否存在性别因素影响
12.2 Z检验
- 选择检验方式
- 一般来说t检验用的更多
Reference & Recommendation:
概率论课程:MIT 6.041
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。