注:预测变量=自变量;响应变量=因变量
一、响应变量为数值型,预测变量为数值型
1.1 Pearson相关系数
衡量线性关系
1.2 Spearman相关系数
变量之间近线性或者曲线相关
不适用于变量间的复杂关系
1.3 loess局部加权回归
非线性关系
采取一系列多项式回归分别对一系列的小区域建模
二、响应变量为数值型,预测变量为分类型
2.1 标准t统计量
比较两组均值,本质为信号与噪音的比例(均值差除以两组方差的函数)
假设数据正态分布
P值检验统计显著性(低P值表明显著性强)
2.2 Wilconxon秩和分析
数据不符合正态分布
2.3 方差分析
预测变量的类多于2个
方差分析探索预测变量的统计显著性,探索哪里不同可以将分类变量转化为几个0-1变量然后用t统计量检验,或者使用多重比较
方差分析需要满足正态分布与方差齐
三、响应变量为分类型,预测变量为数值型
3.1 ROC曲线下的面积
完美分离则面积为1,完全不相关则面积为0.5
当响应变量类数大于2,可以使用roc的推广,或者用一对多的方法
3.2 t统计量
四、响应变量为分类型,预测变量为分类型
4.1 优势比
二分类预测变量与二分类响应变量
4.2 Fisher确切检验
响应变量超过2类或者预测变量有2个以上层级
4.2 C4.5中的增益比
响应变量超过2类或者预测变量有2个以上层级
本文为总结,具体操作可见《应用预测建模》第18章 【衡量预测变量重要性】
Applied Predictive Modeling (2013) by Max Kuhn and Kjell Johnson,林荟等译