【数据挖掘实验】数据筛选之特征选择

本文介绍了一次数据筛选实验,重点探讨了在目标变量为离散型时,如何使用卡方检验进行特征选择。通过多个实例,如麻将色子的均匀性检验、文理科分科意见差异、色盲率比较以及选举投票分析,阐述了卡方检验在计算预测变量重要程度中的应用,展示了卡方统计量在判断变量间独立性和影响程度上的作用。
摘要由CSDN通过智能技术生成

一、实验项目名称:

数据筛选之特征选择

二、实验目的与要求:

掌握特征选择算法的基本步骤、分级的基本过程、目标变量是离散变量,所有预测变量都是离散型时,预测变量重要程度的计算。

三、实验原理:

目标变量是离散变量,所有预测变量都是离散型时,预测变量重要程度的计算。

四、实验方案设计:

假设检验、变量相互独立及重要程度的计算。

五、测试数据与实验结果

测试数据1:预备知识(卡方检验)
卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(fo)与理论次数(fe,又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为:
在这里插入图片描述这是卡方检验的原始公式,其中当fe越大(fe≥5),近似得越好。显然fo与fe相差越大,卡方值就越大;fo与fe相差越小,卡方值就越小;因此它能够用来表示fo与fe相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。

(1)检验无差假设
  所谓无差假设,是指

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值