【ML学习笔记】2：机器学习中的数学基础2(琴生不等式,概率公式,统计量)

最新推荐文章于 2024-01-29 18:09:44 发布

大桔骑士v

最新推荐文章于 2024-01-29 18:09:44 发布

阅读量3.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/SHU15121856/article/details/78483580

版权

机器学习专栏收录该内容

25 篇文章 9 订阅

订阅专栏

琴生不等式

下凸函数的一个良好的性质就是满足琴生不等式，因为：
这里写图片描述
它的加权形式即琴生不等式：

如果将这些权都视为概率，它们加起来为1，那么还能写成数学期望的形式：
f(E(x))<=E(f(x))
也就是说，对于下凸函数，自变量期望的函数值不大于函数值的期望。

此外，对于上凸函数，也有类似的性质，只不过不等号要反过来。

概率公式

这三个公式在概率论学过，复习一下。

条件概率

在已知B发生了的基础上，A发生的概率=A发生且B发生的概率/B发生的概率。
这里写图片描述

全概率公式

这里相当于把条件概率拆开来，下式中的各个Ai两两互斥，而且合起来构成一个完备事件。
这里写图片描述

贝叶斯公式

上面是共同发生的概率用条件概率公式反向拆分，下面是A发生的概率用全概率公式拆分，整体还是一个条件概率公式。
这里写图片描述

常见的概率分布

先打张表，用到时候再细查。

分布	参数	数学期望	方差
两点分布	0<p<1	p	p(1-p)
二项分布	n>=1,0<p<1	np	np(1-p)
泊松分布	λ>0	λ	λ
均匀分布	a<b	(a+b)/2	(b-a)^2/12
指数分布	θ>0	θ	θ^2
正态分布	μ,σ>0	μ	σ^2

概率和统计的关注点

概率

基于已知条件去了解某些细节。
例如，已知有n个次品和m个正品，从中取k个，恰有r个次品的概率。

统计

已经知道总体的情况(未必知道全部，如知道是正态分布却不知道均值和方差)，然后抽样以基于样本的值去估计总体(的均值和方差)。
例如，从一堆产品中取出k个，恰有r个次品，去推测产品中有多少次品。

与机器学习的关系

如在有监督学习中，根据训练集(特征1,,特征2,…,特征n,已知标签)去得到一个算法(该算法可以通过特征去预测标签的值)，得到这个算法的过程就类似统计的过程(从局部估计整体)。
然后用训练出的这个算法，去对已知特征而未知标签的样本，估计其标签的值，这个过程就类似概率的过程。

在拿到训练集以后，应该先对各个特征的分布进行统计
这里写图片描述
往往能看出某些特征和某些标签关联性是比较强的，而某些特征却不然。以此就可以对特征进行一些筛选。

统计估计的是分布，机器学习得出的是模型，一个模型可能包含了许多分布。
这里写图片描述

重要统计量

这些都是描述整体性质的。

[1]期望

离散型：这里写图片描述
连续型：
也就是概率加权下的平均值。

期望满足一些性质：
E(c)=c E(kX)=kE(X) E(X+Y)=E(X)+E(Y)

[2]方差

这里写图片描述
也就是每一个样本值和均值的差的平方求和再除以样本数量，写成期望的形式也就是：
Var(X)=E{[X-E(X)]^2}=E(X^2)-E(X)^2

方差满足一些性质：
Var(c)=0 Var(X+c)=Var(X) Var(kX)=k^2Var(X) Var(X+Y)=Var(X)+Var(Y)

[3]协方差

协方差用于衡量两个随机变量的线性关系(如果两个随机变量存在非线性关系，协方差评价不出来)，方差是协方差的两个变量相同时的情况。
这里写图片描述
公式中随机变量减去随机变量的期望，实际上就是一个去均值化的过程，这个过程往往是机器学习中常用的预处理的过程。
去均值化后，将这两个向量做了内积，所以协方差可以理解成数据预处理后对应的向量的几何上的内积。

协方差满足一些性质：
Cov(X,Y)=Cov(Y,X) Cov(aX+b,cY+d)=acCov(X,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y) Cov(XY)=E(XY)-E(X)E(Y)

很多时候，去看每个特征和标签的协方差，如果接近0的话，那么说明它和标签的线性相关性不强，所以协方差可以用来评估线性相关性和用来选择特征。
这里写图片描述

[4]相关系数

协方差除以X的标准差和Y的标准差的乘积，就是相关系数：
这里写图片描述
它的几何意义是特征去均值化后的向量的夹角余弦值(高中学过模模分之数量积，也就是两个向量的内积除以两个向量模长之积)。

试想两个特征如果相关系数是1，那就相当于cos值是1，也就是两个去均值化后的向量共线；而如果相关系数是0，说明cos值是0，也就是两个去均值化后的向量垂直(完全没有线性关系)。所以相关系数是评价两个特征线性相关性的一个指标。