零、简介
0、包含多个实验的设计,为了避免用户经验影响,采用拉丁方实验设计
拉丁方是一种为减少实验顺序对实验的影响,而采取的一种平衡实验顺序的技术。采用的是一种拉丁方格做辅助,拉丁方格就是由需要排序的几个变量构成的正方形矩阵。其具体的应用过程是这样的:
当处理数是偶数时,其顺序是这样确定的,横排:1,2,n,3,n-1,4,n-2……(n代表要排序的量的个数),随后的次序是在第一个次序的数目上加“1”,直到形成拉丁方。
假设处理数是6,则拉丁方如下:
A B F C E D
B C A D F E
C D B E A F
D E C F B A
E F D A C B
F A E B D C
当处理数是奇数时,(以5为例)
①先按偶数法则形成一个拉丁方:
A B E C D
B C A D E
C D B E A
D E C A B
E A D B C
②然后把上述模式简单反过来,即形成:
D C E B A
E D A C B
A E B D C
B A C E D
C B D A E
拉丁方以表格的形式被概念化,其中行和列代表两个外部变量中的区组,然后将自变量的级别分配到表中各单元中。简单的说就是某一变量在其所处的任意行或任意列中,只出现一次。
1、HCI中的UX研究的实质是通过假设检验的方法,说明新的交互系统能够在关注的典型问题下,具有与当前环境和系统显著的区别,包含两部分:
①. 系统性能(Performance)
定量观测,包括时间、重量、数量、长度等连续量
②. 系统可用性(Usability)
参与者主观定性观测,使用调查问卷的方式,获得主观的离散打分结果
假设检验的核心问题:通过抽样结果对不确定问题统计和分析
数据处理:数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
2、数据分类
①定性:观察、访谈、调查; 定量:手动测量、自动测量、问卷打分
②主观:等级、排序、感觉、有用性; 客观:时间、数量、错误率、分数
③自变量:不同的实验条件因素,研究的因素; 因变量:不同的实验条件所影响的、要观测的因素
3、典型数据类型
①时间、数量、错误率等连续数量值(preference)
②问卷打分等离散数量值(usability)
③排序等等级数量值(usability)
4、SPSS中数据的标度、有序和名义
①.名称属性 【类似于名义】
名称属性是用名称把总体中各个个体描述为若干不同的状态,每个个体具有一种状态,各状态之间无一定的顺序。例如,昆虫有翼无翼,土壤颜色红黑黄。
其中,比较常见的就是二元属性,即有或者没有,是或者否,例如驾驶员的能力高或者低,是否患有某种疾病。(这一类就是spss对应的名义【当变量值表示不具有内在等级的类别时(或者是不具有固有的类别顺序的分类数据】),这种问题通常变成二分类的问题,可以采用spss中的逻辑回归来进行解决。
还有一种情况是无序多状态属性,这种属性会有多种情况,例如驾驶员驾驶风格通常可以划分为冒进型、保守型、普通型。
②.顺序属性
这是各个个体具有多种顺序状态,比如土壤酸碱度分为强酸性、弱酸性、中性、弱碱性、强碱性5种状态,又例如种子的大小是大中小三种状态。这类数据是有一定顺序的,是不会越级变化的,不会说直接从某种状态突变成另一种状态。(这一类就是spss对应的有序【当变量值表示带有某种内在等级的类别时,该变量可以作为有序变量】)
③.数值属性
个体之间采用数值类表示,例如质量、长度等,这类变量虽然是数值,但不一定全是连续型的,例如年龄和个数都是整数型的。(这一类就是spss对应的标度【当区间或比率刻度度量的数据,其中数据值既表示值的顺序,也表示值之间的距离】)
实际上对于spss的标度、有序及名义的使用中,比较麻烦的是有序和名义,只需要把握有序是变量是带有等级的这一点就行。
一、连续数据分析方法——参数分析-单因素方差分析(one-way ANOVA)
实验组为2组,使用T-Test;实验组为3组或以上,使用单因素方差分析
1、介绍
单因素方差分析(one-way ANOVA)也称为F检验,是通过对数据变异的分析来推断两个或多个样本均数所代表的总体均数是否有差别的一种统计推断方法。简单的来说,就是用来检验同一个影响因素的不同水平对因量是否有影响的一种方法。
2、分析“不同实验方法对用户操作任务时间的影响”,现假设有4组对照实验,记录每个用户每组对应的时间(连续数据),录入SPSS,(0,1,2,3代表不同的实验)
3、进行SPSS操作
将“实验类型”作为因子,“时间数据”作为因变量
点击“选项”,勾选结果显示内容。
(方差齐性检验:验证数据是否符合正态分布,一版>0.05才符合,才能进行参数检验;不符合,需要修正数据。为何需要正态分布和方差齐性的检验? - 知乎 (zhihu.com)
但是需要说明的是,针对客观的连续性数据,可以不进行正态分布检验;针对主观的离散型数据,由于存在人为因素影响,小样本数据大概率也不符合正态分布;因此,可以忽略样本数据正态分布检测)
点击“事后比较”,进行两两对比分析,设定“显著性水平(一般取0.05)”
4、结果输出
Time:
假设:每个实验在时间花费上不存在显著性差异
分析:根据第一个表,每个实验的时间均值明显不同,但是是否具有统计学意义呢?根据第二个表,4组实验时间显著性差异为0.00,小于设定的0.05,说明原假设发生的概率为0.00,则推翻原假设
结果: 每个实验在时间花费上存在显著性差异
但是不能通过均值判断具体存在什么样的显著性差异,因此进行时候检验(两两比较)
事后检验:
假设:AR1和AR3实验时间花费上不存在显著性差异
分析:根据第三个表,时间显著性差异为0.30,大于设定的0.05,说明原假设发生的概率很大,则证明原假设成立
结论:AR1和AR3实验时间花费上不存在显著性差异
同理,得出其它结论:其它两两实验时间花费上存在显著性差异
5、论文中的表格格式
①数据表+表述
实验组别 | n(个数) | x̅ ±s(均值±偏差) | F | P |
---|---|---|---|---|
纸质清单 | 20 | 10.3445±2.32252 | 101.315 | <0.001 |
AR1 | 20 | 6.0225±1.30608 | ||
AR2 | 20 | 2.4485±0.73519 | ||
AR3 | 20 | 5.5460±0.83251 |
②柱状图或饼图数据展示
二、离散数据分析方法——非参数分析-2相关分析-威尔科克森符号秩检验
1、介绍
针对NASA TLX量表,likert scale rating量表,排序问卷等
2、信度分析
信度是指测验所得到结果的一致性或稳定性,而非测验或量表本身;
将同一个实验的数据放在一起进行分析
可靠性统计结果:
克隆巴赫信度系数(Cronbach α系数值,下同)如果在0.8以上,则该测验或量表的信度非常好;信度系数在0.7以上都是可以接受;如果在0.6以上,则该量表应进行修订,但仍不失其价值;如果低于0.6,量表就需要重新设计题项。
至此,证明了数据的可靠性
3、多相关样本的非参数检验(Friedman检验)SPSS学习笔记之——多相关样本的非参数检验(Friedman检验)_王江源_新浪博客 (sina.com.cn)
将每个问题选中
选择Friedman检验,多重比较选择“逐步降低”(类似SNK法):
结果:
P<0.001,有统计学差异
4、2相关分析(威尔科克森符号秩检验)
对3组实验的某个问题数据两两进行威尔科克森符号秩检验
结果
发现存在显著差异(Z,p)
同理,p值小于0.05,就可以说两组存在统计学意义上的显著差异。
5、论文中的表格格式
①同上表格描述
②柱状图或饼图数据展示
两两事后比较
由于是事后的两两比较(Posthoctest),因此需要调整显著性水平(调整a水平),作为判断两两比较的显者性水平。依据Bonferroni法,调整a水平=原a水平÷比较次数。例如某研究共比较了6次,调整a水平=0·05÷6=0·0083。因此,最终得到的P值,需要和0·0083比较,小于0·0083则认为差异有统计学意义。
另外,SPSS也提供了调整后P值(Adj.Sig.—列),其思想还是采用Bonferroni法调整a水平。该列是将原始P值(Sig.—列)乘以比较次数得到,因此可以直接和0·05比较,小于0·05则认为差异有统计学意义。
值得注意的是,若某个P=1(不等于0·829的6倍)。这是因为,P的最大值为1。
以上结果可苗述为:采用Bonferroni法校正显著性水平的事后两两比较发现,CWWS评分
的分布在久坐组和中度体力活动组(调整后P=0,008)、久坐组和高体力活动组(调整后
P=0,005)的差异有统计学意义,其它组之间的差异无统计学意义。
一些SPSS功能
1、针对排序/量表题的大小数据转换
spss如何进行反向计分https://jingyan.baidu.com/article/c910274b4be98ecd371d2d75.html2、均值数据展示
SPSS绘制复式条形图(集群条形图)https://jingyan.baidu.com/article/6b182309b056a4ba58e159f3.html
3、NASA-LTX
①可以直接对6个维度的量表进行分析,前面有详细方法;
②也可以针对15道对比题的数据,通过权重方法计算最后的任务评分。