常用方法总结:
https://www.cnblogs.com/pinard/p/9032759.html
https://www.cnblogs.com/jasonfreak/p/5448385.html
其中过滤法几大检验的区别:
https://www.cnblogs.com/massquantity/p/10486904.html
假设x为解释变量,y为被解释变量,我们想确定x的取值对y是否有影响:
(1)x,y都为分类变量,比如学历和购买之间的关系,卡方检验、互信息比较合适;
(2)x为连续变量,y为分类变量,比如身高和购买之间的关系,F检验比较合适;
(3)x,y都为连续变量,相关系数即可;互信息会把连续变量转换为离散变量再进行计算。
卡方检验的思想是分析两个分类变量的关联性,比较理论频数和实际频数的吻合程度;
互信息表示由于x的引入而使 y的不确定性减少的量;
F检验的思想是将不同类别之间的变异与随机误差作比较。