试验设计及其可视化

最新推荐文章于 2022-02-23 07:13:07 发布

俱往矣`

最新推荐文章于 2022-02-23 07:13:07 发布

阅读量578

点赞数 2

分类专栏： R语言数据分析与挖掘文章标签：游戏时间游戏等级知识水平 t检验描述性统计

本文链接：https://blog.csdn.net/weixin_43180762/article/details/109260589

版权

R语言数据分析与挖掘专栏收录该内容

33 篇文章 44 订阅

订阅专栏

试验设计

数据概况

数据概况

我们知道，有时候，接触游戏中的一个概念会导致它不那么启动。也就是说，人们很难把这个概念记在脑子里。因此，在Chittaro和Buttussi的疏散游戏中暴露较长时间的玩家可能会记住较少的游戏所要教的内容。为了验证这一点，我们设计了一个实验，给两组参与者不同的游戏时间，分别是60秒(1分钟)和300秒(5分钟)，来看看那些玩得更久的人是否也能记住游戏规则。

尝试描述性可视化

首先导入和处理数据

library(ggplot2)
library(readxl)
#预处理：将smoke变量转换为因子类型
data<-read_xlsx('Q_3.xlsx')
data$Condition=factor(data$Condition)
#用hist函数找出初始值
data60s<-data[data$Condition==&apos;Long&apos;,]#长
data300s<-data[data$Condition==&apos;Short&apos;,]#短

再绘制图形：

hist(data60s$Level,freq=F)
lines(density(data60s$Level))
hist(data300s$Level,freq=F)
lines(density(data300s$Level))

在这里插入图片描述

library(ggplot2)
#基函数：x设置目标变量
#level堆积图
ggplot(data,aes(x=data$Level,fill=data$Condition))+geom_histogram(position="identity",alpha=0.2)
#直方图函数：position设置堆积模式为重叠

在这里插入图片描述

#knowledge堆积图
ggplot(data,aes(x=data$Knowledge,fill=data$Condition))+geom_histogram(position="identity",alpha=0.2)

在这里插入图片描述
预处理：

#预处理1：将Level变量转换为因子类型
data$Condition=factor(data$Condition)
#预处理2：改变因子水平名称
data$Condition=revalue(data$Condition,c("0"="Long","1"="Short"))

#level#直方图函数
ggplot(data,aes(x=data$Level)+geom_histogram(fill="lightblue",colour="black")+facet_grid(data$Condition~.)
#knowledge直方图
ggplot(data,aes(x=data$Knowledge))+geom_histogram(fill="lightblue",colour="black")+facet_grid(data$Condition~.)

在这里插入图片描述
上图为不同游戏时间对应的不同的游戏水平等级分布图。由图可知，游戏时间长的用户游戏等级主要分布在5级左右，均值在6级；游戏时间短的用户对应的游戏等级主要分布在2-3级左右，均值集中在3级，可以看出，用户玩游戏时间约长，其游戏等级越高，即游戏时间长短影响着游戏等级。

在这里插入图片描述
上图为不同游戏时间对应的不同的知识水平等级分布图。由图可知两者的分布情况大概相同，峰值集中在5级左右，其他各级数量较少，即游戏时间长短不影响游戏用户知识水平。

#分布曲线图
#level分布曲线图
ggplot(data,aes(x=data$Level,fill=data$Condition))+geom_density(alpha=0.3)

#knowledge分布曲线图
ggplot(data,aes(x=data$Knowledge,fill=data$Condition))+geom_density(alpha=0.3)

在这里插入图片描述
上图为不同游戏时间的用户所对应的游戏等级的概率密度曲线拟合图，粉色代表玩游戏时间长的用户，天蓝色代表玩游戏时间短的用户，可以看出，两者的密度曲线形状并不相同，且玩游戏时间长的用户的均值主要集中在6等级附近，而玩游戏时间长的用户均值主要集中在3等级附近，两者均呈现偏态分布。
在这里插入图片描述
上图为不同游戏时间的用户所对应的知识等级的概率密度曲线拟合图，粉色代表玩游戏时间长的用户，天蓝色代表玩游戏时间短的用户，可以看出，两者的概率密度曲线大致呈正态分布，均值在等级5附近。


#Level箱线图
ggplot(data,aes(x=factor(data$Condition),y=data$Level,fill=factor(data$Condition)))+geom_boxplot(notch=TRUE)+scale_fill_brewer(palette="Pastel2")

#knowledge箱线图
ggplot(data,aes(x=factor(data$Condition),y=data$Knowledge,fill=factor(data$Condition)))+geom_boxplot(notch=TRUE) +  scale_fill_brewer(palette = "Pastel2")

在这里插入图片描述

以上为不同游戏时间的用户对应的游戏等级、知识水平的箱线图，其主要反映出数字的分布特征。
就游戏等级而言，两者的数字分布大致相同，但均值呈现出差异性，玩游戏时间越长其游戏等级越高，这与概率密度曲线的结论是相呼应的。就知识水平而言，其数字分布特征并不相同，玩游戏时间长的主要呈峰值集中分布，而玩游戏时间短的用户的知识水平等级分布较为均匀，近乎于正态分布，但两者的均值并没有呈现出很大差异，与概率密度曲线对应。

再进行T检验：

X<-c(7,8,10,8,9,8,4,2,2,6,9,4,6,10,5,7,4,5,5,6,9,6,8,5,6,4,8,6,6,6)
Y<-c(2,7,1,4,7,3,3,3,3,4,6,2,2,4,2,4,3,0,4,3,6,6,7,5,6,3,7,7,3,2)
t.test(X,Y)#Level的t检验，有显著性差异

U<-c(4,7,5,6,5,5,2,5,3,5,5,5,6,5,6,5,7,5,5,5,6,3,7,5,6,5,9,5,5,5)
V<-c(5,5,5,6,7,5,4,4,5,5,2,6,5,5,4,6,5,1,4,6,4,8,9,5,4,5,4,6,5,4)
t.test(U,V)#Knowledge的t检验，无显著性差异

> t.test(X,Y)#Level的t检验，有显著性差异

	Welch Two Sample t-test

data:  X and Y
t = 4.3946, df = 57.774, p-value = 4.811e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 1.270418 3.396248
sample estimates:
mean of x mean of y 
 6.300000  3.966667

以上为关于游戏等级的t检验，由P值=4.811e-05<0.05可知，拒绝原假设，即认为用户不同的游戏时间对游戏等级有显著性差异，且由上面分析可知，游戏时间越长，游戏等级越高。

> t.test(U,V)#Knowledge的t检验，无显著性差异

	Welch Two Sample t-test

data:  U and V
t = 0.72925, df = 56.702, p-value = 0.4689
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.4656635  0.9989968
sample estimates:
mean of x mean of y 
 5.233333  4.966667

以上为关于知识水平的t检验，由P值=0.4689>0.05可知，接受原假设，即认为用户不同的游戏时间对知识水平没有显著性差异。

进行回归分析

U<-c(4,7,5,6,5,5,2,5,3,5,5,5,6,5,6,5,7,5,5,5,6,3,7,5,6,5,9,5,5,5)
V<-c(5,5,5,6,7,5,4,4,5,5,2,6,5,5,4,6,5,1,4,6,4,8,9,5,4,5,4,6,5,4)
plot(X,U)
b=cor(X,U);b
model1<-lm(X~U)
summary(model1)
plot(Y,V)
c=cor(Y,V);c
model2<-lm(Y~V)
summary(model2)

在这里插入图片描述

> c=cor(Y,V);c
[1] 0.375716
> model2<-lm(Y~V)
> summary(model2)

Call:
lm(formula = Y ~ V)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9831 -1.3523 -0.4831  1.0401  3.5092 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   1.5217     1.1902   1.279   0.2116  
V             0.4923     0.2295   2.145   0.0407 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.878 on 28 degrees of freedom
Multiple R-squared:  0.1412,	Adjusted R-squared:  0.1105 
F-statistic: 4.602 on 1 and 28 DF,  p-value: 0.04075

游戏等级与知识水平的相关系数为0.3532，相关性较小，绘制的散点图不具有明显的线性趋势，故用回归拟合效果并不理想。

总结：本次实验的目的在于探究用户玩游戏时间长短是否影响规则的把握度，设定游戏时间为自变量，取值为60s和300s，以游戏等级和知识水平为因变量来反映其游戏规则掌握度。
通过拟合不同游戏时间对应的游戏等级、知识水平的概率密度曲线，并进行显著性t检验，发现用户玩游戏时间长短对其游戏等级有显著性差异，而在其知识水平方面没有显著性差异，箱线图的数据分布结果表示用户玩游戏时间为300s的游戏等级均值集中在等级6附近，用户玩游戏时间为60s的游戏等级集中在等级3附近，也就说明了用户玩游戏时间越长，其游戏等级越高；而用户玩游戏时间为300s和60s的用户在知识水平方面并没有显著性差异，即用户并不会因为玩游戏时间的增加而提高知识水平。
除此之外，通过拟合游戏等级和知识水平的散点图发现两者之间并没有很明显的线性趋势，两者的相关系数为0.3532，具有较弱的相关性，故不宜使用回归等拟合预测曲线，其拟合效果较差。