卡方检验——离散型特征相关性分析

茶冻茶茶

已于 2022-05-26 14:43:57 修改

阅读量3.6k

点赞数 1

分类专栏：数据分析文章标签： python 卡方检验

于 2022-05-25 10:44:31 首次发布

本文链接：https://blog.csdn.net/Zsusan7/article/details/124961714

版权

数据分析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

import pandas as pd  #导入读入数据的包
from sklearn.feature_selection import SelectKBest  #卡方检验->判断离散型特征是否相关
from sklearn.feature_selection import chi2

#读取数据
data = pd.read_csv('./2013年八城市融合数据.csv',encoding='gbk')

x= data[['归属感有无（0：有 1：无）','户口性质（0：农业 1：非农业）','体制内人员（0：非体制内 1：体制内）','大学以上学历（0：大学以下 1：大学以上）','本地人愿意接受我（0：同意 1：不同意）']]
y = data['本地养老（0：非本地 1：本地）']
selectKBest = SelectKBest(chi2, k=5) 
X_new = selectKBest.fit_transform(x, y)
p_values = zip(select_k_best.scores_,select_k_best.pvalues_)
dict_p_values  = dict(zip(['归属感有无（0：有 1：无）','户口性质（0：农业 1：非农业）','体制内人员（0：非体制内 1：体制内）','大学以上学历（0：大学以下 1：大学以上）','本地人愿意接受我（0：同意 1：不同意）'],p_values))

sorted(dict_p_scores.items(),key=lambda x:x[1],reverse=False)

在这里插入图片描述

# 当p值小于0.05时，就说这个独立变量与输出结果有关系
for i in list(select_k_best.pvalues_):
    if i<0.05:
        print('True')

在这里插入图片描述

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

茶冻茶茶

关注关注

1
点赞
踩
28

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

双样本T检验——机器学习特征工程相关性分析实战

wenyusuran的专栏

07-28

2467

最近在做数据分析方面的工作，经常需要检验两组样本之间是否存在差异，所以会遇到统计学中假设检验相关的知识。在机器学习特征工程这一步，笔者最常用到的是假设检验中的卡方检验去做特征选择，因为卡方检验可以做两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。但是笔者今天想介绍一下通过T检验做机器学习中的特征工程，希望能够让大家初步了解到各种假设检验是如何在机器学习项目的特征工程发挥作用。假设检验简介统计学中，常见的假设检验有：T检验（Student's t Test），F检验（方差齐性检验），卡方

MATLAB基础应用精讲-【数模应用】卡方分析

热门推荐

Entropy

06-22

3万+

在数据挖掘的时候，有时候我们会想计算不同特征之间的相关，比如在建模时用来减少冗余特征。连续特征之间的相关性很简单，用皮尔逊相关就可以了，是非常通用且有效的方法。但是在实践里面，大部分时候我们处理的是离散特征，所以这里想提出一个离散特征之间的相关计算办法。这是之前在看决策树C4.5的时候想到的一个思路，就是离散特征之间的相关，可以用决策树的经典算法中的信息增益和信息增益比来描述。

使用斯皮尔曼系数对离散值进行相关性分析

zhao_mou123的博客

07-17

2405

斯皮尔曼系数（Spearman correlation coefficient）是一种衡量两个变量之间的相关性的统计指标，它基于两个变量的等级（而不是原始的数值数据）进行计算。斯皮尔曼系数的取值范围在-1到1之间，其中-1表示完全的负相关，1表示完全的正相关，0表示无相关。与皮尔逊相关系数（Pearson correlation coefficient）不同，斯皮尔曼系数使用变量的等级（即排序）进行计算，而不是使用原始的数值数据。离散值可以通过将它们转换为等级来进行排名。

python通过信息增益的方法进行字符型离散特征之间的相关性分析

赴前尘

07-23

2163

参加了一个比赛，关于数据挖掘的多分类问题，特征集中包含了一些离散特征，通过计算信息增益来度量离散特征与目标特征之间的相关性离散特征： accept_from 目标特征：CODE 代码实现： import pandas as pd import numpy as np # 信息熵 def info_entropy(attr): prob = pd.value_co...

统计学与统计机器学习2--离散型数据的相关性

ANingL的博客

11-27

5474

文章目录一、数据预处理之独热编码0、引入1、概念2、使用独热编码处理离散数据的原因3、补充4、python实现一、数据预处理之独热编码 0、引入在很多机器学习任务中，特征并不总是连续值，而有可能是分类值。可将分类值转化为数字表示，但是，即使转化为数字表示后，此类数据也不能直接用在我们的分类器中。因为，分类器往往默认数据是连续的，并且是有序的。但是，单纯的将分类值转换为数字得到的数据并不是有序的，而是随机分配的。为解决上述问题，其中一种可能的解决办法是采用独热编码 1、概念独热编码：ONE-HOT E

卡方检验--离散变量相关性分析--机器学习特征选择

weixin_44360866的博客

09-29

2677

机器学习特征工程相关性检验过滤法特征选择 卡方检验 假设检验

python卡方检验筛选特征原理_Python数据分析：特征选择（过滤法）

weixin_32282271的博客

01-29

2487

之前介绍了特征工程的第一部分数据预处理，详见：https://www.jianshu.com/p/e3e562242f61，本文介绍特征工程的第二部分：特征选择。特征选择有n多种方法，本文先介绍过滤法。image.png一、先补充一下数据预处理环节没有提到的点“特征从哪里来？”一般情况下，数据分析人员会根据业务流程搭建一套完整的指标体系，这些指标就是可能会用到的特征：1)根据要解决的问题从指标体...

统计学——独立性与相关性检验

zhh的博客

02-14

2万+

统计学(第6版) 贾俊平读书笔记第9章分类数据分析 9.1 分类数据与χ2统计量统计数据的类型有分类数据、顺序数据和数值型数据。分类数据是对事物进行分类的结果。例如在泰坦尼克号海难的例子中，船上共2208人，其中男性1738人，女性470人。这里，性别是分类变量，有两个类别：男性和女性，男性和女性的人数都是事件结果，以频数的方式表现。χ2检验是对分类数据的频数进行分析的统计方法。 χ2可以...

数据处理：离散型变量编码及效果分析

Datawhale

01-21

1520

Datawhale作者：小雨姑娘，Datawhale成员离散型变量编码的Python库首先我要介绍这个关于离散型编码的Python库，里面封装了十几种（包括文中的所有方法）对于离散...

特征离散化概述

徐奕的专栏

07-22

897

定义连续特征离散化是采取各种方法将连续的区间划分为小的区间，并将这连续的小区间与离散值关联起来。连续特征离散化的本质是：决定选择多少个分割点和确定分割点的位置。背景连续数据经常采用离散化处理之后再放入模型。离散化可以理解为提取特征的过程，比如在LR模型，由于是广义线性模型表达能力有限，因此通过特征离散化来了提高非线性学习能力步骤 1.对连续特征值按照某种指定的规则进行排序 2....

连续型变量和离散型变量的相关性检验方法（仅供自己参考）

MC_manchang的博客

04-06

1万+

Numpy进行元素筛选与掩码操作

Mr数据杨

07-16

3万+

通过本教程，我们探讨了Numpy中几种常用且高效的元素筛选方法，包括布尔索引、函数和掩码操作。这些工具不仅能简便地对数组元素进行筛选，还提供了在数据处理、清洗和图像处理等应用中批量修改数据的功能。筛选方法应用场景优势示例布尔索引数据快速筛选简洁高效，适用于简单条件筛选复杂条件处理灵活，支持多条件判断，适合复杂逻辑处理掩码操作图像处理、数据清洗高效灵活，适合批量修改满足条件的数据这些方法基于Numpy的强大数值计算能力，能够为数据分析带来更灵活和高效的解决方案。

离散型特征的处理方法

DataCastle

12-25

7154

机器学习中，常常在数据集中会遇到一些离散特征，对于这些离散特征相比连续特征要用不同的处理方法，常见的方法有LabelEncoder与OneHotEncoder。 LabelEncoder LabelEncoder用来对离散型分类型特征值进行编码，可以对本文编码，也可以对数字编码。sklearn中也提供给相应的工具包以便使用： sklearn.preprocessing.LabelEncod...

机器学习 - 数据预处理中的特征离散化方法

jclee95的个人博客

03-17

2897

可供参考的三种特征离散化方法在数据分析中，我们认为在某个范围内取值过于密集的特征认为是取值”连续“的特征。出于某些需求经常需要将这些”连续特征进行离散化“。本文介绍三种比较实用的数据离散化方法。方法1：尺度缩小法这种方法是对于数值元素的一种简单粗暴的方法。离散化的目的不就是减少取值数目吗。那么好，只要把数据除以某个值，大数就变小数，抹掉小数位，自然取值个数就少了很多。很显然，这种离散化方法的特点在于对越小的数整合归并能力越强。经常我们将数据读取为一个二维DataFrame结构的表，而需要离散化

【阶段二】Python数据分析Pandas工具使用11篇：探索性数据分析：数据的检验：卡方检验与t检验

张陈亚的博客

01-05

521

Python数据分析Pandas工具使用11篇：探索性数据分析：数据的检验：卡方检验与t检验

关于卡方在离散型单特征变量分析中的应用

baity940418的博客

09-30

2004

卡方检验，检验的是真实值和基于原假设得到的预测值之间样本的差异，即如果真实值和预测值之间的样本差异较小，则表示原假设成立。在我们构建模型，进行单特征分析的时候（分析单特征与真实label之间的相关性），往往会利用到卡方值。离散变量之间的相关性检验的假设是变量之间是独立的，然后基于这个构建了卡方分布，如果他们之间确实是独立的的话，即假设成立，真实值和预测值之间的差异很小，对应的卡方值也就低，得到

为什么连续值特征比离散值特征好

weixin_30455023的博客

06-06

340

声明：本文是根据一篇英文博客翻译加自己总结得到的，如果造成侵权，请联系本人删除。最近在做特征工程，看到这篇文章很受启发。原文链接： http://blog.minitab.com/blog/understanding-statistics/why-is-continuous-data-better-than-categorical-or-discrete-data 原文的题目是——为...

python相关性分析特征选择

09-15

在Python中，可以使用sklearn.feature_selection模块中的SelectKBest方法进行相关性分析特征选择。这个方法主要是根据互信息法来选择最佳特征。使用SelectKBest方法需要注意以下两点： 1. 区分离散数据和连续数据：在进行特征选择时，需要考虑特征的类型，即特征是离散型数据还是连续型数据。 2. 输出索引或特征名：SelectKBest方法的输出一般为特征的索引，但如果只获得索引对于特征量大的数据集来说不够友好，需要想办法获得特征的名称。下面是一个示例代码，展示了如何使用SelectKBest方法进行相关性分析特征选择： ``` from sklearn.feature_selection import SelectKBest, mutual_info_classif # 创建SelectKBest对象，指定使用互信息法进行特征选择 selector = SelectKBest(score_func=mutual_info_classif, k=12) # 使用fit方法进行特征选择，传入特征矩阵X和目标变量y selector.fit(X, y) # 通过get_support方法获取选择的特征的索引 selected_features_indices = selector.get_support(indices=True) # 根据索引从原始特征矩阵X中选择特征 selected_features = X[:, selected_features_indices] ``` 这段代码演示了在相关性分析特征选择中使用互信息法的方法。首先，创建了一个SelectKBest对象，并指定score_func参数为mutual_info_classif，k参数为希望选择的特征数量。然后，使用fit方法对特征矩阵X和目标变量y进行特征选择。最后，通过get_support方法获取选择的特征的索引，再根据索引从原始特征矩阵X中选择特征。希望以上内容对您有所帮助！如果还有其他问题，请随时提问。