数据科学与大数据分析之项目1-假设检验

项目介绍

为了提高学生的学习成绩,教师开发了两种新的学习方法,称为“方法1”和“方法2”。为了分析这些方法的有效性,教师随机抽取N名学生。对于其中的N1,他使用“approach1”,对于其中的N2,他使用“approach2”。对于其余的(N-N1-N2)学生,他什么也不申请。一段时间后,教师对所有N名学生进行测试,并用成绩分数(注意,这个分数可以是正的,也可以是负的)评估每个学生的成绩。评估结果存储在“A1_performance_test.csv“只不过,它与此任务一起提供。在这项任务中,你将使用假设检验来帮助这位老师回答以下问题:

  1. 这两种新的学习方式能否有效地提高学生的学习成绩?

  2. 在提高学生学习成绩方面,两种方法是否存在显著差异?

项目开始

首先我们先看一下数据集。
在这里插入图片描述
一共有600条数据,每条数据有两列属性:approach 和performance。

在准备阶段,我们先要读取文件:
在这里插入图片描述
在测试之前,我们使用shapiro.test()执行一个分布检查。
在这里插入图片描述
p值等于0.2411大于0.05,因此我们不能拒绝样本数据正态分布的假设,样本数据正态分布。

然后我们还需要在测试开始前做方差齐性检验。为了完成测试 Bartlett.test(),我们需要先用给定的数据做一个列表。

基于它们的标签提取性能值,然后使用不同的向量来存储它们。
在这里插入图片描述
用上面创建的向量做一个列表,并进行Bartlett检验,结果表明p- value等于0.8555 >> 0.05,表示不同水平的绩效得分具有相同的方差。
在这里插入图片描述
之后我们开始检测假设。

我们对问题做三个假设. ( 𝜇 1 - approach1; 𝜇 2 - approach2; 𝜇 0 - no approach)。

  1. 这两种新的学习方式能否有效地提高学生的学习成绩?

第一个假设
零假设(H0):方法1没有显著提高学生的表现。
𝜇 1 ≤ 𝜇 0
备选假设(H1):方法1显著提高学生成绩。
𝜇 1 > 𝜇 0
第二个假设
零假设(H0):方法2没有显著提高学生的表现。
𝜇 2 ≤ 𝜇 0
备选假设(H1):方法2显著提高学生成绩。
𝜇 2 > 𝜇 0
为我们需要检验这个方法是否可以提高性能,所以我们需要进行单侧t检验。
在这里插入图片描述
得到approach1 and group no_approach的平均差异在这里插入图片描述
Group approach2 and group no_approach.之间的平均差在这里插入图片描述
两个t检验都显示p值小于0.05,因此我们可以拒绝原假设H 0,这意味着方法1和方法2都可以有效地提高性能。

  1. 在提高学生学习成绩方面,两种方法是否存在显著差异?
    第三个假设:
    零假设(H0):方法1和方法2之间没有显著差异。
    𝜇 1 = 𝜇 2
    备选假设(H1):方法1和方法2存在显著差异。
    𝜇 1 ≠ 𝜇 2
    这里我们需要检验这两种方法对绩效得分的影响是否相同,所以我们使用了双边t检验。
    在这里插入图片描述
    在这里插入图片描述
    结果表明,p值等于0.04629小于0.05,虽然很接近,但我们仍然可以拒绝零假设,因为第一类错误的可能性小于5%,这是可以接受的。

结论

问题1:方法1和方法2都可以有效地提高性能。
问题2:方法1和方法2有显著差异

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值