琴生不等式
下凸函数的一个良好的性质就是满足琴生不等式,因为:
它的加权形式即琴生不等式:
如果将这些权都视为概率,它们加起来为1,那么还能写成数学期望的形式:
f(E(x))<=E(f(x))
也就是说,对于下凸函数,自变量期望的函数值不大于函数值的期望。
此外,对于上凸函数,也有类似的性质,只不过不等号要反过来。
概率公式
这三个公式在概率论学过,复习一下。
条件概率
在已知B发生了的基础上,A发生的概率=A发生且B发生的概率/B发生的概率。
全概率公式
这里相当于把条件概率拆开来,下式中的各个Ai两两互斥,而且合起来构成一个完备事件。
贝叶斯公式
上面是共同发生的概率用条件概率公式反向拆分,下面是A发生的概率用全概率公式拆分,整体还是一个条件概率公式。
常见的概率分布
先打张表,用到时候再细查。
分布 | 参数 | 数学期望 | 方差 |
---|---|---|---|
两点分布 | 0<p<1 | p | p(1-p) |
二项分布 | n>=1,0<p<1 | np | np(1-p) |
泊松分布 | λ>0 | λ | λ |
均匀分布 | a<b | (a+b)/2 | (b-a)^2/12 |
指数分布 | θ>0 | θ | θ^2 |
正态分布 | μ,σ>0 | μ | σ^2 |
概率和统计的关注点
概率
基于已知条件去了解某些细节。
例如,已知有n个次品和m个正品,从中取k个,恰有r个次品的概率。
统计
已经知道总体的情况(未必知道全部,如知道是正态分布却不知道均值和方差),然后抽样以基于样本的值去估计总体(的均值和方差)。
例如,从一堆产品中取出k个,恰有r个次品,去推测产品中有多少次品。
与机器学习的关系
如在有监督学习中,根据训练集(特征1,,特征2,…,特征n,已知标签)去得到一个算法(该算法可以通过特征去预测标签的值),得到这个算法的过程就类似统计的过程(从局部估计整体)。
然后用训练出的这个算法,去对已知特征而未知标签的样本,估计其标签的值,这个过程就类似概率的过程。
在拿到训练集以后,应该先对各个特征的分布进行统计
往往能看出某些特征和某些标签关联性是比较强的,而某些特征却不然。以此就可以对特征进行一些筛选。
统计估计的是分布,机器学习得出的是模型,一个模型可能包含了许多分布。
重要统计量
这些都是描述整体性质的。
[1]期望
离散型:
连续型:
也就是概率加权下的平均值。
期望满足一些性质:
E(c)=c
E(kX)=kE(X)
E(X+Y)=E(X)+E(Y)
[2]方差
也就是每一个样本值和均值的差的平方求和再除以样本数量,写成期望的形式也就是:
Var(X)=E{[X-E(X)]^2}=E(X^2)-E(X)^2
方差满足一些性质:
Var(c)=0
Var(X+c)=Var(X)
Var(kX)=k^2Var(X)
Var(X+Y)=Var(X)+Var(Y)
[3]协方差
协方差用于衡量两个随机变量的线性关系(如果两个随机变量存在非线性关系,协方差评价不出来),方差是协方差的两个变量相同时的情况。
公式中随机变量减去随机变量的期望,实际上就是一个去均值化的过程,这个过程往往是机器学习中常用的预处理的过程。
去均值化后,将这两个向量做了内积,所以协方差可以理解成数据预处理后对应的向量的几何上的内积。
协方差满足一些性质:
Cov(X,Y)=Cov(Y,X)
Cov(aX+b,cY+d)=acCov(X,Y)
Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
Cov(XY)=E(XY)-E(X)E(Y)
很多时候,去看每个特征和标签的协方差,如果接近0的话,那么说明它和标签的线性相关性不强,所以协方差可以用来评估线性相关性和用来选择特征。
[4]相关系数
协方差除以X的标准差和Y的标准差的乘积,就是相关系数:
它的几何意义是特征去均值化后的向量的夹角余弦值(高中学过模模分之数量积,也就是两个向量的内积除以两个向量模长之积)。
试想两个特征如果相关系数是1,那就相当于cos值是1,也就是两个去均值化后的向量共线;而如果相关系数是0,说明cos值是0,也就是两个去均值化后的向量垂直(完全没有线性关系)。所以相关系数是评价两个特征线性相关性的一个指标。