python 卡方检验批量筛选_用python进行列联表卡方检验

最新推荐文章于 2024-07-12 04:11:28 发布

weixin_39671467

最新推荐文章于 2024-07-12 04:11:28 发布

阅读量412

点赞数

文章标签： python 卡方检验批量筛选

本文介绍了如何使用Python进行列联表卡方检验，以分析手游2013年8-9月用户登录数据。通过卡方检验，作者发现月份、年龄段、设备类型等因素对登录次数的影响，特别是安卓设备在9月出现明显下降，可能与系统优化问题有关。

摘要由CSDN通过智能技术生成

前天在看书的时候第一次看到了列联表卡方检验，觉得这个东西不难又相对容易实现，刚好知乎 @算命师的文章是用R来实现卡方检验，于是借用他的数据，我在spyder上面实现了。（感谢 @算命师的数据）

这是一份手游数据，里面是某手游2013年8-9月的用户登录数据以及用户数据库数据。这是为了查看到底是什么因素使得8-9月的登录次数骤减。为了看到底是什么因素会影响，首先会想到方差分析、相关性矩阵，还有卡方检验。

首先卡方检验是针对自变量和因变量都是分类数据，也就是说带有属性的数据；而单因素方差分析是自变量是分类数据，因变量是连续型的数据。还有一点：方差分析是参数检验，而卡方检验是属于非参数检验。

到底列联表的卡方怎么做呢？卡方检验是用途非常广的一种假设检验方法，它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合。注意：卡方检验针对分类变量

当然是要进行假设检验啦：

equation?tex=H_0%3A%E4%B8%A4%E4%B8%AA%E5%9B%A0%E5%AD%90%E4%B9%8B%E9%97%B4%E5%B9%B6%E4%B8%8D%E5%AD%98%E5%9C%A8%E5%85%B3%E7%B3%BB+%5C%5CH_1%3A%E4%B8%A4%E5%9B%A0%E5%AD%90%E5%AD%98%E5%9C%A8%E5%85%B3%E7%B3%BB

根据度娘的图：

1、括号里面是根据观测值的概率来推算出来的理论值，或者叫期望值。

2、最下面和最右面是分别在不同分类数据下的求和，右边那列的和下边的和怎么都等于200

3、概率和理论值怎么算呢：

$equation?tex=P%28%E5%8C%96%E5%A6%86%29+%3D+%5Cfrac%7B110%7D%7B200%7D+%5Cspace+P%28%E4%B8%8D%E5%8C%96%E5%A6%86%29%3D%5Cfrac%7B90%7D%7B200%7D%5C%5C+P%28%E7%94%B7%29+%3D+%5Cfrac%7B100%7D%7B200%7D+%5Cspace+P%28%E5%A5%B3%29+%3D+%5Cfrac%7B100%7D%7B200%7D%5C%5C+%E7%94%B7%E5%8C%96%E5%A6%86+%3D+%5Cfrac%7B100%7D%7B200%7D%2A%5Cfrac%7B110%7D%7B200%7D%2A200+%3D+55%5C%5C+%E5%A5%B3%E5%8C%96%E5%A6%86+%3D+%5Cfrac%7B100%7D%7B200%7D%2A%5Cfrac%7B110%7D%7B200%7D%2A200+%3D+55%5C%5C+%E7%94%B7%E4%B8%8D%E5%8C%96%E5%A6%86+%3D+%5Cfrac%7B100%7D%7B200%7D%2A%5Cfrac%7B90%7D%7B200%7D%2A200+%3D+45%5C%5C+%E5%A5%B3%E4%B8%8D%E5%8C%96%E5%A6%86+%3D+%5Cfrac%7B100%7D%7B200%7D%2A%5Cfrac%7B90%7D%7B200%7D%2A200+%3D+45%5C%5C+$