机器学习-特征中的相关性及相关系数、卡方检验、互信息

 

       在机器学习中,对于特征选择的方法分为三类:过滤式(Filter),包裹式(Wrapper),和嵌入式(Embedding)。过滤式方法是先按照某种规则对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关,这相当于先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型。相关系数法、卡方检验法和互信息法是进行特征选择时常用的几种过滤式方法。

变量关系

协方差

线性相关系数

互信息

卡方检验和卡方分布


变量关系

先从变量之间的关系来说明,变量之间的关系可分为两类:

(1)存在完全确定的关系——称为函数关系,即类似于Y=2X+3

(2)不存在完全确定的关系——虽然变量间有着十分密切的关系,但是不能由一个或多各变量值精确地求出另一个变量的值,那么这种关系称为相关关系,存在相关关系的变量称为相关变量。相关变量的关系也可分为两种:

(1)两个及以上变量间相互影响——平行关系;

(2)一个变量变化受另一个变量的影响——依存关系;

它们对应的分析方法:

相关分析是研究呈平行关系的相关变量之间的关系

回归分析是研究呈依存关系的相关变量之间的关系

在这里我们主要研究变量与变量之间的相关分析,如下图,比如要买房的人越多,房价就越高,两者的关系称为正相关;从出生率和城镇化率我们可以看出是负相关。

类似上图中的这种相关性可以通过协方差相关系数来具体表示和计算。

 

协方差

在概率论中,两个随机变量 X 与 Y 之间相互关系,大致有下列3种情况:  

当 X, Y 的联合分布像左图那样时,大致上有: X 越大 Y 也越大, X 越小 Y 也越小,这种情况,我们称为“正相关”。

当X, Y 的联合分布像中间图那样时,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。

当X, Y 的联合分布像右图那样时,既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,这种情况我们称为“不相关”。

同样将这3种相关情况,用一个简单的数字表达出来呢?,令 EX、EY 分别是 X 和 Y 的期望值。什么是期望呢?在这里我们可以把它看成是平均值,即 EX 是变量 X 的平均值,EY 是变量 Y 的平均值

在图中的区域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;

在图中的区域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;

在图中的区域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;

在图中的区域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。

当X 与Y 正相关时,分布大部分在区域(1)和(3)中,小部分在区域(2)和(4)中,所以平均来说,有E(X-EX)(Y-EY)>0 。

当 X与 Y负相关时,分布大部分在区域(2)和(4)中,小部分在区域(1)和(3)中,所以平均来说,有(X-EX)(Y-EY)<0。

当 X与 Y不相关时,在区域(1)和(3)中的分布,与在区域(2)和(4)中的分布一样多,平均来说,有(X-EX)(Y-EY)=0。

所以,我们可以定义一个表示X, Y 相互关系的数字特征,也就是协方差,即:

值得一提的是,E 代表求期望值,也可以用平均值来计算协方差:

640

当 cov(X, Y)>0时,表明X与Y 正相关;

当 cov(X, Y)<0时,表明X与Y负相关;

当 cov(X, Y)=0时,表明X与Y不相关。

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值