excel统计分析(1):列联表分析与卡方检验

  • 列联表:用于展示两个或多个分类变量之间频数关系的表格。——常用于描述性分析
  • 卡方检验:通过实际频数和期望频数(零假设为真情况下的频数),反映了观察频数与期望频数之间的差异程度,来评估两个变量是否独立,即是否有关联。——常用于假设检验

步骤

1、建立列联表、零假设

首先建立零假设,假设两个分类变量没有关联,是独立的。
零假设(H0):两个变量相互独立
备择假设(H1):两个变量之间存在关联

2、计算期望频数

期望频数:在零假设(两个变量独立)为真的情况下预期频数。
计算公式=(行总数×列总数)/总样本量

3、计算卡方统计量

  • 卡方概率值(P值):在零假设为真的情况下,观察到当前统计量值或更极端情况的概率。
    • P值越小,表明观察到的数据与零假设之间的不一致性越大,因此提供了更强的证据来拒绝零假设。
    • 在卡方检验中,如果P值小于或等于事先设定的显著性水平(例如0.05),则通常拒绝零假设,认为两个变量之间存在关联。
    • 公式:CHISQ.TEST(实际频数范围,期望频数范围)
  • 卡方统计量:量化了观察频数与期望频数间的差异。
    • 卡方统计量的值越大,表明观察频数与期望频数之间的差异越大,从而提供了更多的证据来拒绝零假设。
    • 公式:SUM((实际频数范围-期望频数范围)^2/期望频数范围),按ctrl+shift+enter组合键完成
      在这里插入图片描述

4、确认显著性水平、自由度,计算临界值

  • 显著性水平:(通常用α表示)是你愿意犯第一类错误(错误地拒绝零假设)的概率。常见的显著性水平有0.05、0.01等。
  • 自由度=(行分类数−1)×(列分类数−1)
  • 临界值:excel中可以用CHISQ.INV 函数(返回具有给定概率的左尾x2 分布的区间点)查找。
    - 计算临界值:CHISQ.INV(显著性水平,自由度)

5、比较卡方统计量跟临界值,确认检验结果

当卡方统计量>临界值时,拒绝两种属性不相关的假设。
当卡方统计量<=临界值时,接受两种属性不相关的假设。
公式:IF(B15>B19, “拒绝两种属性不相关的假设”, “接受两种属性不相关的假设”)

案例1:顾客地区和所选房子地板类型之间的相关性分析

在这里插入图片描述

案例2:学生专业选择与其性别是否存在关联

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值