线性相关系数、卡方检验、互信息

线性相关系数、卡方检验、互信息线性相关系数卡方检验互信息线性相关系数卡方检验互信息总结相信大家在数据挖掘的很多地方大家都看到这三个概念,比如说线性拟合的时候,看线性相关系数来评估拟合程度;在特征工程中,这三个都是filter类方法之一(过滤型)。那今天给大家总结下这三个概念,个人才疏学浅,有啥问题还请大家批评指正。线性相关系数也叫Pearson相 关 系 数, 主要衡量两个变量线性相关的程度
摘要由CSDN通过智能技术生成

线性相关系数、卡方检验、互信息

相信大家在数据挖掘的很多地方大家都看到这三个概念,比如说线性拟合的时候,看线性相关系数来评估拟合程度;在特征工程中,这三个都是filter类方法之一(过滤型)。那今天给大家总结下这三个概念,个人才疏学浅,有啥问题还请大家批评指正。


线性相关系数

也叫Pearson相 关 系 数, 主要衡量两个变量线性相关的程度,由卡尔·皮尔森1880年提出。它的公式为

线性相关系数公式

其中 X¯¯¯ X 的平均值, Y¯¯¯ Y 的平均值。 r 的取值[-1,1]。越接近1,表示 X Y 越相关,其中负数表示负相关。

需要特别注意的是:
1. 线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。实例可以参看博文
2. 从公式中可以看出,如果只有一个数据,分母为0,线性相关系数也是无意义的。其实少量数据量,计算线性相关性也是无意义的(怎么画那条直线呢)。
因此,建议在给出线性相关系数之前,画图展示下数据的分布。

线性相关系数python代码实现

import sys
import re
import math
def matrix
  • 5
    点赞
  • 62
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值