R语言IRT理论:扩展Rasch模型等级量表模型lltm、 rsm 和 pcm模型分析心理和教育测验数据可视化...

原文链接:http://tecdat.cn/?p=26096 

摘要

我们首先介绍扩展 Rasch 模型的方法论,然后是一般程序描述和应用主题,包括简单的 Rasch 模型、评级量表模型、部分信用模型及其线性扩展。这种线性结构的结合允许对协变量的影响进行建模,并能够分析重复的分类测量。

简介

Rost (1999) 在他的文章中声称,“尽管 Rasch 模型已经存在了这么长时间,但目前 95% 的心理学测试仍然是使用经典测试理论的方法构建的”。基本上,他引用了很少使用 Rasch 模型 (rm) 的以下原因:原始形式的 Rasch 模型 (Rasch 1960) 仅限于二分项,对于实际测试目的而言,可以说限制性太强。因此,研究人员应该关注扩展的 Rasch 模型。

除了基本的 rm,可以计算的模型有:线性逻辑检验模型 (Scheiblechner 1972)、评级量表模型 (Andrich 1978)、线性评级量表模型 (Fischer and Parzer 1991)、部分信用模型(Masters 1982)和线性部分信用模型(Glas 和 Verhelst 1989;Fischer 和 Ponocny 1994)。

扩展 Rasch 模型

一般表达

Andersen (1995) 推导出以下表示,这些表示基于 Rasch 对多组数据的一般表达式。数据矩阵表示为 X,行中的人 v 和列中的项目 i。总共有 v = 1, ..., n 个人和 i = 1, ..., k 项。数据矩阵 X 中的单个元素表示为 xvi。此外,每个项目 i 都有一定数量的响应类别,用 h = 0, ..., mi 表示。对项目 i 的响应 h 的相应概率可以根据以下两个表达式导出(Andersen 1995):

21e33ba5a0bdb538de5abfc174e19fda.png(1)

或者

39c21217e3907100025851fba1010876.png(2)

这里,φh 是项目参数的评分函数,θv 是一维人参数,βi 是项目参数。在等式 1 中,ωh 对应于类别参数,而在等式 2 中,βih 是项目类别参数。

扩展 Rasch 模型的表示

对于二分项的普通 Rasch 模型,等式 1 简化为

42b2a6da33fdac354389115e12513a47.png(3)

主要假设,也适用于本文提出的概括,是:潜在特征的单维性、原始分数的充分性、局部独立性和平行项目特征曲线 (iccs)。相应的解释可以在 Fischer (1974) 中找到,在 Fischer (1995a) 中可以找到数学推导和证明。

对于二分项,Scheiblechner (1972) 提出了(更受限制的)线性逻辑检验模型 (lltm),后来由 Fischer (1973) 形式化,通过将项目参数拆分为线性组合

37098fa3e0a474d9865e69794c79354f.png(4)

请注意,项目 i 和操作 j 的权重 wij 必须先验地固定。关于认知操作的进一步阐述可以在 Fischer (1974, p. 361ff.) 中找到。因此,从这个角度来看,lltm 比 Rasch 模型更简洁。

不过,还有另一种看待 lltm 的方法:基本 Rasch 模型在重复测量和组对比方面的概括。需要注意的是,两种类型的重新参数化也适用于线性评级量表模型(lrsm)和线性部分信用模型(lpcm),相对于下面介绍的基本评级量表模型(rsm)和部分信用模型(pcm) . 关于 lltm,Fischer (1974) 已经介绍了将其用作 Rasch 模型的推广以进行重复测量的可能性。在随后的几年中,这一建议得到了进一步的阐述。

在这一点上,我们将专注于 Rasch 模型的简单多分类推广,即 rsm (Andrich 1978),其中每个项目 Ii 必须具有相同数量的类别。对于等式 1,可以将 φh 设置为 h,其中 h = 0, ..., m。由于在 rsm 中项目类别的数量是恒定的,因此使用 m 而不是 mi。因此,由此得出 

617d5f07443e769e1b9b9c8cbc8c796b.png(5)

具有 k 个项目参数 β1, ..., βk 和 m + 1 个类别参数 ω0, ..., ωm。此参数化导致对单个项目的响应类别 Ch 进行评分。项目参数可以像方程 4 中那样以线性组合进行拆分。

最后,介绍了 Masters (1982) 开发的 pcm 及其线性扩展 lpcm (Fischer and Ponocny 1994)。pcm 为 h = 0, ..., mi 的每个 Ii ×Ch 组合分配一个参数 βih。因此,恒定评分属性不能保留项目,此外,项目可以具有不同数量的响应类别,由 mi 表示。因此,pcm 可以被视为 rsm 的推广,并且人 v 对类别 h(项目 i)的响应的概率定义为

e93a85e1d796963f9bc7d4c24bda4e2c.png(6)

很明显,(6) 是 (2) 在 φh = h 方面的简化。至于lltm和lrsm,lpcm是通过重新参数化基本模型的item参数来定义的,即

a9eb81f8d3aec84650a74b9e9ab56b4c.png(7)

应用示例

在以下小节中,提供了与不同模型和设计矩阵场景相关的各种示例。由于可理解性问题,数据集保持相当小。

示例 1:Rasch 模型

我们从一个基于 100×30 数据矩阵的简单 Rasch 模型开始示例部分。首先,我们估计项目参数,然后估计人员参数。

然后我们使用 Andersen 的 LR 检验与平均分割标准进行拟合优度:

> lrre

0e013dc1edca0c80c0b09b6fc5b4824d.png

我们看到模型拟合,并且该结果的图形表示(仅项目子集)在图  中通过带有置信椭圆的拟合优度图给出。

> plotGOF(lrres.rasch, beta.subset = c(14, 5, 18, 7, 1), tlab = "item",
+ conf = list(ia = FALSE, col = "blue", lty = "dotted"))

88517edc083b04dff5e89fea0712e539.png


点击标题查阅往期内容

521b1dbdd45530dd61ae68d7525ad9f5.png

R语言使用Rasch模型分析学生答题能力

outside_default.png

左右滑动查看更多

outside_default.png

01

4b1a1d141db5f35c9f5ca01c41c444e4.png

02

5e317465289c533c6b13dd8c57cd01e1.png

03

f43ae65e34571579e2283b210e3ac0d0.png

04

5a4d9d4f206433ad0baf536e0b037f2b.png

示例 2:lltm 作为受限 Rasch 模型

对项目参数进行线性扩展的模型也可以看作是其底层基本模型的特例。事实上,下面提出的 lltm 并遵循 Scheiblechner (1972) 的原始想法,是一个受限的 rm,即与 Rasch 模型相比,估计参数的数量更小。数据矩阵 X 由 n = 15 个人和 k = 5 个项目组成。此外,我们指定具有特定权重元素 wij 的设计矩阵 W。

> retm <- LLTM(lt2, W)
> summary(resm)

56f2b78879c3b5f793510970056ce3f2.png

summary方法为基本参数和结果项目参数提供点估计和标准误差。请注意,项目参数始终根据等式 1 和 2 而不是 3 估计为容易度参数。

示例 3:rsm 和 pcm

同样,我们现在提供一个人工数据集,其中 n = 300 人,k = 4 个项目;他们每个人都有 m + 1 = 3 个类别。我们从 rsm 的估计开始,随后,我们计算相应的类别交叉参数。

> thresholds(resm)

40869ce393566e64ecb2da1206ec4231.png

位置参数基本上是项目难度,阈值是图 4 中给出的 icc 图中类别曲线相交的点:

> plotICC(res.rsm, mplot = TRUE, legpos = FALSE, ask = FALSE)

d7272509a23be0caa48347111e912956.png

rsm 将所有项目的阈值距离限制为相同。使用 pcm 可以放宽这个强假设。结果以人员-项目图表示(参见图 5)。

> res.pcm <- PCM(pcmdat2)
> plotPImap(res.pcm, sorted = TRUE)

在估计人员参数后,我们可以检查项目拟合统计信息。

980f246f8561ed2e60f689dbc206f4f4.png

itemfit(pcm)

046d71d89bc95ddb3e60c9fc2be30029.png

比较 rsm 和 pcm 的似然比检验表明 pcm 提供了更好的拟合。

> pvalue <- 1 - pchisq(lr, df)

6397cd9f97c0d9bd985fd1943423ea5c.png

用于在不同组中重复测量的 lpcm

最复杂的示例是指具有两个测量点的 lpcm。此外,对于治疗是否有效的假设也很有趣。相应的对比是下面 W 中的最后一列。首先,指定数据矩阵 X。我们假设一个由 k = 3 个项目组成的人工测试,该测试向受试者展示了两次。X 中的前 3 列对应于第一个测试场合,而后 3 列对应于第二个场合。通常,前 k 列对应于第一个测试场合,接下来的 k 列对应于第二个测试场合,依此类推。总共有 n = 20 个科目。其中,前10人属于第一组(如对照组),后10人属于第二组(如实验组)。这由组向量指定:

> grouplpcm <- rep(1:2, each = 10)

同样,W 是自动生成的。通常,对于此类设计,W 的生成首先包括项目对比,然后是时间对比,最后是除第一个测量点之外的组主效应(由于可识别性问题,如前所述)。

> rm <- LPCM
> model.matrix

e5ec25101de545fb1bf313c3bf7f02a3.png

参数估计如下:

> coef

d434e6a446d60598144bb2c94d49de45.png

检验 η 参数是否等于 0 与那些涉及项目的参数(在本例中为 η1,...,η8)几乎无关。但是对于其余的对比,H0 : η9 = 0(意味着没有一般时间效应)不能被拒绝(p = .44),而假设 H0 : η10 = 0 在应用 z 时必须被拒绝(p = .004) -检验。这表明在测量点上存在显着的实验效果。如果用户想要执行额外的检验,例如两个 η 参数的等价性的 Wald 检验,可以应用 vcov 方法来获得方差-协方差矩阵。

讨论与展望

cml 估计方法与 em 算法相结合,也可用于估计混合 Rasch 模型 (MIRA)。这种模型背后的基本思想是扩展的 Rasch 模型适用于个体的亚群,但每个亚群具有不同的参数值。

在 Rasch 模型中,项目辨别参数 αi 始终固定为 1,因此它不会出现在基本方程中。然而,Verhelst 和 Glas (1995) 制定了单参数逻辑模型 (oplm),其中 αi 不会因项目而异,但不等于 1。估计 oplm 的基本策略是一个三步法:首先,计算 Rasch 模型的项目参数。然后,在一定的限制条件下计算判别参数。最后,使用这些判别权重,oplm 的项目参数是使用 cml 估计的。这是 Rasch 模型在不同斜率方面更灵活的版本。

对不同数量的项目类别的概括、允许引入项目协变量和/或趋势的线性扩展以及可选的组对比是在测试中检查项目行为和个人表现时的重要问题。这提高了 irt 模型在各种应用领域的可行性。


3161692285cf9b11de50af927fbc285c.png

本文摘选R语言IRT理论:扩展Rasch模型等级量表模型lltm、 rsm 和 pcm模型分析心理和教育测验数据可视化,点击“阅读原文”获取全文完整资料。


点击标题查阅往期内容

R语言拟合扩展Rasch模型分析试题质量

R语言使用Rasch模型分析学生答题能力

R语言中的BP神经网络模型分析学生成绩

R语言方差分析(ANOVA)学生参加辅导课考试成绩差异

数据视域下图书馆话题情感分析

探析大数据期刊文章研究热点

R语言LME4混合效应模型研究教师的受欢迎程度

疫情下的在线教学数据观

使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM   

欲获取全文文件,请点击左下角“阅读原文”。

fc174d0f83c596e2cfdff515f670f92b.gif

3be644662983213117c57236cb83e1c5.png

bb725ae435f5461efff76ee3b0420d79.jpeg

8a3ffe4761318414961351cf70c9abcd.png

欲获取全文文件,请点击左下角“阅读原文”。

384744e612b3dfa7a35b5d56c26f80dc.gif

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值