[统计学笔记] (八)分类数据分析

本文介绍了分类数据分析的相关概念,包括数据分类、拟合优度检验和独立性检验。通过统计量衡量两个分类变量之间的相关程度,并通过列联表进行分析。以独立性检验为例,展示了如何通过计算期望频数和观测频数来判断地区和原料等级之间是否存在依赖关系。
摘要由CSDN通过智能技术生成

(八)分类数据分析

首先思考问题:

1. 为什么要对数据进行分类?如何对数据分类?

2. 数据分类后,如何对分类数据进行分析?

数据分类


分类变量的结果表现为类别,例如:性别 (男, 女)
各类别用符号或数字代码来测度
使用分类或顺序尺度

  • 你吸烟吗?  1.是;2.否
  • 你赞成还是反对这一改革方案? 1.赞成;2.反对

对分类数据的描述和分析通常使用列联表
可使用\chi ^{2}检验 

\chi ^{2} 统计量

\chi ^{2}可以用于测定两个分类变量之间的相关程度。若用f_{o}表示观察值频数(observed frequency),用f_{e}表示期望值频数(expected frequency),则\chi ^{2}统计量可以写为:

\chi ^{2} 统计量有如下特征:首先 \chi ^{2}\geqslant 0,因为它是对平方结果的汇总;其次,\chi ^{2}统计量的分布与自由度有关;最后,\chi ^{2} 统计量描述了观察值与期望值的接近程度。两者越接近,即\left | f_{0}-f_{e} \right | 越小,计算出的 \chi ^{2} 值就越小;反之,\left | f_{0}-f_{e} \right | 越大,计算出的\chi ^{2}值也越大。\chi ^{2}检验正是通过对\chi ^{2}的计算结果与\chi ^{2}分布中的临界值进行比较,作出是否拒绝原假设的统计决策。

 \chi ^{2} 分布与自由度的关系如上图所示。上图中显示了自由度分别为 1,5 和 10 时相应的 \chi ^{2} 分布。

自由度越小,分布就越像左边倾斜,随着自由度的增加,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值