数据科学与大数据分析之项目1-假设检验

最新推荐文章于 2022-09-15 17:02:19 发布

Jifu_M

最新推荐文章于 2022-09-15 17:02:19 发布

阅读量663

点赞数 1

分类专栏：数据科学与大数据分析项目练习文章标签：数据分析

本文链接：https://blog.csdn.net/Jifu_M/article/details/112102975

版权

项目练习同时被 2 个专栏收录

36 篇文章 3 订阅

订阅专栏

数据科学与大数据分析

26 篇文章 10 订阅

订阅专栏

假设检验

项目介绍
项目开始
结论

项目介绍

为了提高学生的学习成绩，教师开发了两种新的学习方法，称为“方法1”和“方法2”。为了分析这些方法的有效性，教师随机抽取N名学生。对于其中的N1，他使用“approach1”，对于其中的N2，他使用“approach2”。对于其余的（N-N1-N2）学生，他什么也不申请。一段时间后，教师对所有N名学生进行测试，并用成绩分数（注意，这个分数可以是正的，也可以是负的）评估每个学生的成绩。评估结果存储在“A1_performance_test.csv“只不过，它与此任务一起提供。在这项任务中，你将使用假设检验来帮助这位老师回答以下问题：

这两种新的学习方式能否有效地提高学生的学习成绩？
在提高学生学习成绩方面，两种方法是否存在显著差异？

项目开始

首先我们先看一下数据集。
在这里插入图片描述
一共有600条数据，每条数据有两列属性：approach 和performance。

在准备阶段，我们先要读取文件：
在这里插入图片描述
在测试之前，我们使用shapiro.test()执行一个分布检查。

p值等于0.2411大于0.05，因此我们不能拒绝样本数据正态分布的假设，样本数据正态分布。

然后我们还需要在测试开始前做方差齐性检验。为了完成测试 Bartlett.test()，我们需要先用给定的数据做一个列表。

基于它们的标签提取性能值，然后使用不同的向量来存储它们。
在这里插入图片描述
用上面创建的向量做一个列表，并进行Bartlett检验，结果表明p- value等于0.8555 >> 0.05，表示不同水平的绩效得分具有相同的方差。

之后我们开始检测假设。

我们对问题做三个假设. ( 𝜇 1 - approach1; 𝜇 2 - approach2; 𝜇 0 - no approach)。

这两种新的学习方式能否有效地提高学生的学习成绩？

第一个假设
零假设(H0):方法1没有显著提高学生的表现。
𝜇 1 ≤ 𝜇 0
备选假设(H1):方法1显著提高学生成绩。
𝜇 1 > 𝜇 0
第二个假设
零假设(H0):方法2没有显著提高学生的表现。
𝜇 2 ≤ 𝜇 0
备选假设(H1):方法2显著提高学生成绩。
𝜇 2 > 𝜇 0
为我们需要检验这个方法是否可以提高性能，所以我们需要进行单侧t检验。
在这里插入图片描述
得到approach1 and group no_approach的平均差异
Group approach2 and group no_approach.之间的平均差
两个t检验都显示p值小于0.05，因此我们可以拒绝原假设H 0，这意味着方法1和方法2都可以有效地提高性能。

在提高学生学习成绩方面，两种方法是否存在显著差异？
第三个假设：
零假设(H0):方法1和方法2之间没有显著差异。
𝜇 1 = 𝜇 2
备选假设(H1):方法1和方法2存在显著差异。
𝜇 1 ≠ 𝜇 2
这里我们需要检验这两种方法对绩效得分的影响是否相同，所以我们使用了双边t检验。

结果表明，p值等于0.04629小于0.05，虽然很接近，但我们仍然可以拒绝零假设，因为第一类错误的可能性小于5%，这是可以接受的。