机器学习的数学基础

机器学习的数学基础

这里我主要总结一下我正在看的Bishop的"Pattern Recognition and Machine Learning"里面的内容。

1:概率论基础

边缘概率:只观察某个变量的概率。如存在X,Y两个变量,P(X)和P(Y)都是边缘概率(marginal probability)

联合概率:同时观测两个变量的值,此时的概率。如P(X=i,Y=j)就是联合概率(joint probability)

考虑上面这个图,每一个格子就代表X=i,Y=j的数量n_{ij},总的数量为N,那么联合概率P(x_{i}y_{j})= n_{ij}/N.

 边缘概率可以根据联合概率进行计算。通过上面的图可以看出,要求某个x_{i}的边缘概率,那么只需要求某一列的概率就行了,又因为每一列包含了多个Y的值,因此只需要累加就行了:

 条件概率(conditional probability)是已知某个条件后求另一变量的值,比如说已知X=i,求Y=j的概率,使用上面的图可以看出,只需要用一列中某个格子的值除以该列的值(个数)就行了:

条件概率和联合概率的区别就是条件概率是一个的底数是某一列的个数,一个是全部的数量N,所以一般来说条件概率是比联合概率大的,从公式也可以看出。下面列举了通过联合概率求边缘概率的公式:

贝叶斯公式如下:

由于联合概率可以写成条件概率的形式,因此边缘概率也可以用下面的公式计算:

2:协方差矩阵

协方差矩阵在很多应用中都出现过,比如果PCA, 多维高斯分布等等,协方差矩阵有一个很重要的性质就是它是对称半正定的,对于该性质的证明如下:

参考:

https://stats.stackexchange.com/questions/52976/is-a-sample-covariance-matrix-always-symmetric-and-positive-definite

3:相关性度量

怎么去衡量变量x,y之间的相关性呢?举个简单的例子,如何去衡量一维变量x,y∈R是否是线性相关的。这个可以直接使用协方差去衡量x,y之间的线性相关性质,从协方差的定义我们可以知道,如果cov(x,y)=0,那么x和y一定是线性无关的(但是有可能满足其他非线性相关),cov(x,y)>0说明x和y呈正相关,反之为负相关。

还可以使用皮尔逊相关系数来衡量相关性,皮尔逊相关系数的变化范围为-1到1。 系数的值为1意味着XY可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且 随着 的增加而增加。系数的值为−1意味着所有的数据点都落在直线上,且  随着 的增加而减少。系数的值为0意味着两个变量之间没有线性关系。

这里说的相关性实际上都是两个变量之间的线性相关性质,对于多维变量来说,可以使用协方差矩阵来得到任意两个变量之间的相关性进行分析。

参考:

https://blog.csdn.net/GoodShot/article/details/79183364

4:最大似然(ML)和最大后验概率估计(MAP)

首先,最大似然估计和最大后验概率估计是从不同的出发点考虑的。

最大似然估计将模型的参数θ当做确定的但是未知的变量(频率派 frequentist statistics),因此通过以下式子可以求解θ:

但是,最大后验概率把θ当做和输入S={X,Y}一样不确定的变量(利用贝叶斯公式),θ的后验概率P(θ|S)为:

我们希望找到具有最大后验概率的P(θ|S)的一个θ:

因此需要为θ估计分布,如果假设θ服从高斯分布的话,结果就相当于在ML的基础上增加了L2-norm,因此结果就不容易过拟合了,同理,如果假设θ服从Laplace分布的话,结果就相当于加上了L1-norm,产生的结果会更加稀疏。

参考:

Andrew Ng "machine learning" chapter 5

https://blog.csdn.net/m0_38045485/article/details/82147817

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值