衡量预测变量/自变量重要性

注:预测变量=自变量;响应变量=因变量

一、响应变量为数值型,预测变量为数值型

1.1 Pearson相关系数

衡量线性关系

计算公式

1.2 Spearman相关系数 

变量之间近线性或者曲线相关

不适用于变量间的复杂关系

1.3 loess局部加权回归

非线性关系

采取一系列多项式回归分别对一系列的小区域建模

 

二、响应变量为数值型,预测变量为分类型

2.1 标准t统计量

比较两组均值,本质为信号与噪音的比例(均值差除以两组方差的函数)

假设数据正态分布

P值检验统计显著性(低P值表明显著性强)

2.2 Wilconxon秩和分析

数据不符合正态分布

2.3 方差分析

预测变量的类多于2个

方差分析探索预测变量的统计显著性,探索哪里不同可以将分类变量转化为几个0-1变量然后用t统计量检验,或者使用多重比较

方差分析需要满足正态分布与方差齐

 

三、响应变量为分类型,预测变量为数值型

3.1 ROC曲线下的面积

完美分离则面积为1,完全不相关则面积为0.5

当响应变量类数大于2,可以使用roc的推广,或者用一对多的方法

3.2 t统计量

 

四、响应变量为分类型,预测变量为分类型

4.1 优势比

二分类预测变量与二分类响应变量

4.2 Fisher确切检验

响应变量超过2类或者预测变量有2个以上层级 

4.2 C4.5中的增益比

响应变量超过2类或者预测变量有2个以上层级 


本文为总结,具体操作可见《应用预测建模》第18章 【衡量预测变量重要性】

Applied Predictive Modeling (2013) by Max Kuhn and Kjell Johnson,林荟等译

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值