![6928fcf700dffd50141ef4b40cc2b591.png](https://img-blog.csdnimg.cn/img_convert/6928fcf700dffd50141ef4b40cc2b591.png)
目录:
- 前言
- 卡方检验定义
- 什么是
(具体原理)
- 两个分类变量的关联性分析
前言:
前面两篇文章谈到了
TzeSing:简单相关性分析(两个连续型变量)zhuanlan.zhihu.com![4104428ca1838a42b02b5d9909919a44.png](https://img-blog.csdnimg.cn/img_convert/4104428ca1838a42b02b5d9909919a44.png)
![a71c93455679419b541fbc1b261fe8d4.png](https://img-blog.csdnimg.cn/img_convert/a71c93455679419b541fbc1b261fe8d4.png)
分别是两变量和多变量的线性相关性的检验,
注意:这里的两变量
万一遇到了不是连续变量,而是两个二值型离散变量的该如何判断其是否相关呢?
这就要用到卡方检验了
卡方检验
卡方检验是一种计数资料的假设检验方法。属于非参数检验的范畴,
主要是比较两个及两个以上样本率(构成比)以及 两个二值型离散变量的 关联性分析。
其根本思想就是在于比较 理论频数和 实际频数的 吻合程度或拟合优度问题。
用通俗的话来分析一下它的定义:
-
检验是非参数检验,就是我们根本不知道分类变量的分布。
- 比较理论频数和实际频数的吻合程度
其实就是独立性检验的反向检验,如果不独立,那肯定有关联
这里用的是Pearson
举个热身的例子:
我要检验一个骰子是否均匀
- 假设每个面出现的概率为
- 设计实验:投骰子
次,记录每个面出现的次数
,用
求出每个面频率
</