题记:
由于本科概率统计本着分不在高,及格就行的原则,让自己在机器学习中遇到了很大的障碍,得回头去把丢掉的东西捡起来。
1.先提出各个知识点的概念,有的简单就只提一下名称,容易混淆的就单独提出来。
2.因为机器学习在数学系是不一样的学习方法,会有更多的数学原理运用到,所以本文会介绍很多数学原理。
3.朋友推荐了一本书,Machine Learning on probabilistic perspective. 在这里会是主线学习内容。
常用概念
1.随机变量(实质是一个函数,这个函数描述 随机事件的数量表现)
研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何!
设随机试验的样本空间是S={e}, X=X(e) 是定义在样本空间S上的实值单值函数,称X=X(e)为随机变量。
例如:三次投硬币事件,正为H,负为T。事件e=XXX, X可取值H和T, S={HHH, HHT, HTH,THH, HTT,THT,TTH,TTT},
X=X(e)={3,2,1,0}分别表示3正,2正,1正,0正。这个式子完成了事件e到函数值的映射。
2.随机事件
随机事件是样本空间的子集(2^3个子集,即幂集)。在每次试验中,当且仅当该子集中的任意一个元素发生时,称该随机事件发生。如X=2,就包括了e=HHT,HTH,THH的三种情况。
3.概率密度函数
在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。图中,横轴为随机变量的取值,纵轴为概率密度函数的值,而随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。概率密度函数一般以大写“PDF”(Probability Density Function)标记。
概率密度函数有时也被称为概率分布函数,但这种称法可能会和累积分布函数或概率质量函数混淆。
4.概率质量函数
一个概率质量函数的图像。函数的所有值必须非负,且总和为1。
在概率论中,概率质量函数(probability mass function,简写为pmf)是离散随机变量在各特定取值上的概率。概率质量函数和概率密度函数不同之处在于:概率质量函数是对离散随机变量定义的,本身代表该值的概率;概率密度函数是对连续随机变量定义的,本身不是概率,只有对连续随机变量的概率密度函数在某区间内进行积分后才是概率。
5.累积分布函数是概率密度函数(MDF,D是distribution)的积分。
6.高斯分布(又称正态分布,正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量)
u决定水平位置,δ越小,f(x)越大,幅度越大,图形越尖。
7.指数分布
8.数学期望(反映随机变量平均取值的大小)
平均数是根据实际结果统计得到的随机变量样本计算出来的算术平均值,和实验本身有关,而数学期望是完全由随机变量的概率分布所确定的,和实验本身无关。以摇骰子为例,假设我们摇4次骰子,摇出的结果依次为5,5,6,4。设摇出的结果为随机变量X,,则X在这次实验中的平均数(5+5+6+4)/4= 5.而X的期望呢?和这次的实验本身无关,只和X的概率分布有关。X的概率分布如下:
Xi | 1 | 2 | 3 | 4 | 5 | 6 |
pi | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
则
E(X) = 1*1/6+2*1/6+3*1/6+4*1/6+5*1/6+6*1/6 = (1+2+3+4+5+6)*1/6 = 3.5
实验的多少是可以改变平均数的,而在你的分布不变的情况下,期望是不变的。
协方差矩阵(随机变量之间的线性相关关系(相关系数矩阵在此处更为贴切))
方差:
数学期望给出了随机变量的平均大小,现实生活中我们还经常关心随机变量的取值在均值周围的散布程度,而方差就是这样的一个数字特征。
协方差矩阵作为实对称矩阵,其主要性质之一就是可以正交对角化,即存在正交矩阵U,使得
作为半正定矩阵,我们可以对协方差矩阵进行Cholesky分解:半正定矩阵,可以分解为,其中是上三角阵,是对角线元素都非负的对角矩阵。所以
这样一来,矩阵 ,其中。
注意:相互独立协方差一定为0,但是协方差为0不一定相互独立。