两种新的计算机化自适应测验在线标定方法 - 心理学报
心理学报 2016, Vol. 48, No.9, 11841198
Acta Psychologica Sinica DOI: 10.3724/SP.J.1041.2016.01184
两种新的计算机化自适应测验在线标定方法*
陈 平
(北京师范大学中国基础教育质量监测协同创新中心, 北京 100875)
摘 要 在线标定技术由于具有诸多优点而被广泛应用于计算机化自适应测验(CAT)的新题标定。Method A
是想法最直接、算法最简单的 CAT 在线标定方法, 但它具有明显的理论缺陷——在标定过程中将能力估计
值视为能力真值。将全功能极大似然估计方法(FFMLE)与“利用充分性结果”估计方法 (ECSE) 的误差校正思
路融入 Method A (新方法分别记为 FFMLE-Method A 和 ECSE-Method A), 从理论上对能力估计误差进行校
正, 进而克服 Method A 的标定缺陷。模拟研究的结果表明:(1)在大多数实验条件下, 两种新方法较 Method
A 总体上可以改进标定精度, 且在测验长度为 10 的短测验上的改进幅度最大; (2)当 CAT 测验长度较短或中
等 (10 或 20 题 ) 时 , 两种新方法的表现与性能最优的 MEM 已非常接近。当测验长度较长(30 题 ) 时 ,
ECSE-Method A 的总体表现最好、优于 MEM; (3)样本量越大, 各种方法的标定精度越高。
关键词 全功能极大似然估计 ; 计算机化自适应测验 ; 项目反应理论 ; 在线标定; 题库建设
分类号 B841
1 引言 量新的技能类型(如知识状态); (4)与多级项目反应
理论(Polytomous Item Response Theory , PIRT)结合
在 传 统 纸 笔 测 验 (Paper-and-Pencil , P&P) 中, 可以提供基于表现的题目类型(如开放题); (5)与多
所有被试不论能力高低都作答相同的一批题目, 所 维 IRT (Multidimensional IRT , MIRT)相结合可以提
以 P&P 中题目的难度分布较广, 一般覆盖整个能 供被试在多个分维度上的精细信息 ; (6)主试如果感
力范围。于是, 题目对高能力被试而言大多比较容 兴趣还可以记录被试在每个题目上的反应时, 以作
易、对低能力被试来说大多比较难, 不利于对被试 为评价被试能力的辅助指标(Wang, 2012); (7)当题
能力的准确估计(漆书青, 戴海琦, 丁树良, 2002)。计 库得到良好维护时, 测验可以全年提供, 被试可以
算机化自适应测验(Computerized Adaptive Testing, 选择方便的时间参加测验(Cheng, 2008) 。上述优点
CAT) 的基本思路是让计算机自动模仿聪明主试的 使得国内外很多大规模的选拔性与资格性考试都
做法 , 每次都呈现最适合被试作答的题目 (Wainer 推出 CAT 版本的测验, 例如美国商学院研究生入学
et al., 1990) 。因此, 相对于 P&P, CAT 使用更少的题 考试与美国医生护士资格考试(Chang, 2012, 2015),
目就能达到相同的能力估计精度(如 Weiss, 1982), 还有我国第四军医大学对应征公民进行的图形智力
大大提高了测验效率。CAT 还有很多其他优点, 比 测验( 田健全, 苗丹民, 杨业兵, 何宁, 肖玮, 2009)等。
如:(1)随着计算机硬