【ML学习笔记】2:机器学习中的数学基础2(琴生不等式,概率公式,统计量)

琴生不等式

下凸函数的一个良好的性质就是满足琴生不等式,因为:
这里写图片描述
它的加权形式即琴生不等式:
这里写图片描述
如果将这些权都视为概率,它们加起来为1,那么还能写成数学期望的形式:
f(E(x))<=E(f(x))
也就是说,对于下凸函数,自变量期望的函数值不大于函数值的期望

此外,对于上凸函数,也有类似的性质,只不过不等号要反过来。

概率公式

这三个公式在概率论学过,复习一下。

条件概率

在已知B发生了的基础上,A发生的概率=A发生且B发生的概率/B发生的概率。
这里写图片描述

全概率公式

这里相当于把条件概率拆开来,下式中的各个Ai两两互斥,而且合起来构成一个完备事件。
这里写图片描述

贝叶斯公式

上面是共同发生的概率用条件概率公式反向拆分,下面是A发生的概率用全概率公式拆分,整体还是一个条件概率公式。
这里写图片描述

常见的概率分布

先打张表,用到时候再细查。

分布参数数学期望方差
两点分布0<p<1pp(1-p)
二项分布n>=1,0<p<1npnp(1-p)
泊松分布λ>0λλ
均匀分布a<b(a+b)/2(b-a)^2/12
指数分布θ>0θθ^2
正态分布μ,σ>0μσ^2

概率和统计的关注点

概率

基于已知条件去了解某些细节。
例如,已知有n个次品和m个正品,从中取k个,恰有r个次品的概率。

统计

已经知道总体的情况(未必知道全部,如知道是正态分布却不知道均值和方差),然后抽样以基于样本的值去估计总体(的均值和方差)。
例如,从一堆产品中取出k个,恰有r个次品,去推测产品中有多少次品。

与机器学习的关系

如在有监督学习中,根据训练集(特征1,,特征2,…,特征n,已知标签)去得到一个算法(该算法可以通过特征去预测标签的值),得到这个算法的过程就类似统计的过程(从局部估计整体)。
然后用训练出的这个算法,去对已知特征而未知标签的样本,估计其标签的值,这个过程就类似概率的过程。

在拿到训练集以后,应该先对各个特征的分布进行统计
这里写图片描述
往往能看出某些特征和某些标签关联性是比较强的,而某些特征却不然。以此就可以对特征进行一些筛选。

统计估计的是分布,机器学习得出的是模型,一个模型可能包含了许多分布。
这里写图片描述

重要统计量

这些都是描述整体性质的。

[1]期望

离散型:这里写图片描述
连续型:这里写图片描述
也就是概率加权下的平均值。

期望满足一些性质:
E(c)=c
E(kX)=kE(X)
E(X+Y)=E(X)+E(Y)

[2]方差

这里写图片描述
也就是每一个样本值和均值的差的平方求和再除以样本数量,写成期望的形式也就是:
Var(X)=E{[X-E(X)]^2}=E(X^2)-E(X)^2

方差满足一些性质:
Var(c)=0
Var(X+c)=Var(X)
Var(kX)=k^2Var(X)
Var(X+Y)=Var(X)+Var(Y)

[3]协方差

协方差用于衡量两个随机变量的线性关系(如果两个随机变量存在非线性关系,协方差评价不出来),方差是协方差的两个变量相同时的情况。
这里写图片描述
公式中随机变量减去随机变量的期望,实际上就是一个去均值化的过程,这个过程往往是机器学习中常用的预处理的过程。
去均值化后,将这两个向量做了内积,所以协方差可以理解成数据预处理后对应的向量的几何上的内积

协方差满足一些性质:
Cov(X,Y)=Cov(Y,X)
Cov(aX+b,cY+d)=acCov(X,Y)
Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
Cov(XY)=E(XY)-E(X)E(Y)

很多时候,去看每个特征和标签的协方差,如果接近0的话,那么说明它和标签的线性相关性不强,所以协方差可以用来评估线性相关性和用来选择特征。
这里写图片描述

[4]相关系数

协方差除以X的标准差和Y的标准差的乘积,就是相关系数:
这里写图片描述
它的几何意义是特征去均值化后的向量的夹角余弦值(高中学过模模分之数量积,也就是两个向量的内积除以两个向量模长之积)。
这里写图片描述
试想两个特征如果相关系数是1,那就相当于cos值是1,也就是两个去均值化后的向量共线;而如果相关系数是0,说明cos值是0,也就是两个去均值化后的向量垂直(完全没有线性关系)。所以相关系数是评价两个特征线性相关性的一个指标。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值