线性相关系数、卡方检验、互信息
相信大家在数据挖掘的很多地方大家都看到这三个概念,比如说线性拟合的时候,看线性相关系数来评估拟合程度;在特征工程中,这三个都是filter类方法之一(过滤型)。那今天给大家总结下这三个概念,个人才疏学浅,有啥问题还请大家批评指正。
线性相关系数
也叫Pearson相 关 系 数, 主要衡量两个变量线性相关的程度,由卡尔·皮尔森1880年提出。它的公式为
其中 X¯¯¯ 是 X 的平均值,
需要特别注意的是:
1. 线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。实例可以参看博文。
2. 从公式中可以看出,如果只有一个数据,分母为0,线性相关系数也是无意义的。其实少量数据量,计算线性相关性也是无意义的(怎么画那条直线呢)。
因此,建议在给出线性相关系数之前,画图展示下数据的分布。
线性相关系数python代码实现
import sys
import re
import math
def matrix