Higher-order latent trait models for cognitive diagnosis
下载论文
摘要
针对认知诊断模型中的二分属性(知识点掌握与否),本文为提出了高阶潜在属性来指明其联合分布。这种方法在许多场景下,可以为高维属性向量的联合分布提供一个简化模型。这种方法源于将属性视为考试成绩所需的特定知识点,并用类似于试题响应模型IRT中广泛定义的潜在特性
θ
\boldsymbol{\theta}
θ对这些属性进行建模。通过这种方式,可以基于一般能力与特定知识点之间的合理关系,构建出一个相对简单的属性联合分布模型。针对选定的响应分布,本文使用蒙特卡洛算法对参选进行估计,并且通过仿真研究来验证算法的性能,并对模型在不同分布下的敏感性进行了分析。随后,本文针对分数减法数据集进行了分析。
关键词: 认知针对,试题响应理论,潜在类别分类模型,蒙特卡洛采样
1. 引言
与使用一维潜在特征向量的试题响应模型相比,引入多维潜在变量的认知诊断模型,揭示的信息更具诊断价值,给人们带来更多的想象空间。这些模型可以对技能组中的每一项是否掌握进行诊断,并使用二分变量(只包含0和1)的矢量来表示特定技能或知识状态的掌握情况。心理学中通常使用属性来代表技能或知识状态,但是本文为描述方便,将使用更为容易理解的描述性语言。认知诊断的主要目标是确定被试对应二分属性向量所属的潜在类别,在更通用的潜在类别模型中,该任务称作潜在类别多分类模型。
从Tatusuoka(1995)的论文中可以看出,传统的一维响应模型的在分数加法数据集和SAT数据考试数据集上的诊断效果。另一个案例是,Mislevy 1996年提出的概率模型,用于诊断包含7中规则的混合数组减法数据集。这类案例,可以通过一维连续且广泛定义的潜在特征来解释试题中的大部分依赖关系。与该特征相关但更具解释性的属性可以实现更高精度的拟合效果,因此,从业人员可以使用这种方式制诊断方法的定改进方案。
本文提出的方法旨在解决试题响应模型在信息量较少时,且具有多种属性的认知诊断难题。将属性是做考试成绩所需的特定知识点,并且通过使用类似于试题响应模型中官方定义的 θ \boldsymbol{\theta} θ来对属性进行建模。通过这种方式,我们可以为属性的联合分布指定一个简单的模型,该模型通过一般能力和特定知识点之间的关系进行建模。一个潜在的副产品是,可以在单个模型中来对属性进行分类并且估计被试的一般能力。
下午的主要目标是提出一种方法,基于高阶潜在特性对潜在属性向量的联合分布进行建模,并且展示如何使用蒙特卡洛方法对模型的参数进行估计。构造该模型的动机是,需要简化属性的联合分布模型,在认知诊断模型中,使用广泛定义,代表被试一般能力的高阶潜在特性来表示属性是一种理所当然的方法。
本文的第二个目标是研究模型选择对分类正确率的敏感性。认知诊断的响应理论通常源于子任务的潜在响应序列,这些响应必须全部正确才能回答对试题。可以想象,只要模型差距不太大,基于相同的属性列表,使用不同认知理论派生出的模型可能表现都会很好。我们将通过仿真实验来验证这一点。
下章,我们将讨用于认知诊断的潜在分类模型,并提出一种包含K个二分潜在属性联合分布的参数化方法。第三章将阐述用于参数估计的蒙特卡洛方法,并将该方法用于第四种的仿真实验中,第四章还会检验正确模型和不正确模型的拟合效果,旨在考察当使用其他认知理论生成数据时,模型的分类效果鲁棒性。第五章对分数减法数据集进行了分析,并使用各种标准和模型对数据进行拟合,并对比拟合效果。最后一章我们对结论进行了说明。
2. 模型说明
令 Y \boldsymbol{Y} Y代表 J J J题的二分响应结果向量。给定属性向量 α = ( α 1 , … , α K ) \boldsymbol{\alpha} = {(\alpha_1,…,\alpha_K)} α=(α1,…,αK), Y Y Y的分类统计独立。二分向量 α \boldsymbol{\alpha} α的第 k k k的元素 α k \alpha_k αk代表被试所在分类与第 k k k个属性的关系。比如,在教育领域, α k \alpha_k αk代表被试是否掌握一个特定的认知任务或知识点,比如将整数转化成分数。在精神病学领域,它可能代表 K K K个诊断指标中,第 k k k个指标是否为阳性。要为 Y \boldsymbol{Y} Y指定一个潜在变量模型,我们需要在给定属性向量 α \boldsymbol{\alpha} α的情况下,对 Y \boldsymbol{Y} Y的条件分布进行公式化,并参数化 α \boldsymbol{\alpha} α的联合分布。首先我们回归下基于 Y \boldsymbol{Y} Y条件分布的模型,我们以DINA和NIDA连接模型以及基于Logistic线性响应函数的补偿模型为例来进行说明。
2.1 试题响应向量的条件分布
在认知诊断场景中,已经提出了很多模型,将
Y
\boldsymbol{Y}
Y的分布与属性向量
α
\boldsymbol{\alpha}
α进行关联。尽管参数的格式不同,但是大多都建立在条件独立的假设上。对于响应向量
Y
\boldsymbol{Y}
Y,其条件分布为:
P
(
Y
∣
α
)
=
∏
j
=
1
J
P
(
Y
i
∣
α
)
P(\boldsymbol{Y|\alpha}) = \prod_{j=1}^J{P(\boldsymbol{Y_i|\alpha})}
P(Y∣α)=j=1∏JP(Yi∣α)对于项目响应函数$P(\boldsymbol{Y|\alpha})
的
所
有
模
型
,
都
需
要
构
建
一
个
的所有模型,都需要构建一个
的所有模型,都需要构建一个\boldsymbol{Q}$矩阵,该矩阵用于指明每道试题关联哪些知识点。Q矩阵的形状为
J
×
K
J \times K
J×K, 矩阵中的元素
q
j
,
k
=
1
q_{j,k} = 1
qj,k=1表示回答对
j
j
j题需要掌握第
k
k
k个知识点,如果
q
j
,
k
=
0
q_{j,k} = 0
qj,k=0,则代表该知识点与试题无关。下面我们将讨论几种有用的模型。
2.1.1 DINA模型
DINA模型是随机连接模型的典型案例。连接模型场景下,学生需要掌握Q矩阵中定义的试题所有知识点都(才能答对试题),缺少任何属性都会导致答对的概率与未掌握任何属性答对的概率相同。模型的随机性体现在掌握试题的所有知识点也不能保证一定就能回答正确(存在一定的失误率),试题的所有知识点都未掌握,也不一定就会回答错误(存在一定的猜对率)。模型的确定性方便与生成的潜在响应 η i , j \eta_{i,j} ηi,j相关,该值由第 i i i个主题的属性向量 α i \boldsymbol{\alpha_i} αi和定义在 Q \boldsymbol{Q} Q矩阵中的第 j j j个试题决定: η i , j = ∏ k = 1 K α i , k q j , k \eta_{i,j} = \prod_{k=1}^K{\alpha_{i,k}^{q_{j,k}}} ηi,j=∏k=1Kαi,kqj,k。
确定的潜在响应
η
i
,
j
\eta_{i,j}
ηi,j表示第
i
i
i个学生是否掌握第
j
j
j个试题的所有所有知识点。第
j
j
j个试题的正确响应参数用
s
j
s_j
sj和
g
j
g_j
gj来表示。其中
s
j
s_j
sj表示在
η
i
,
j
=
1
\eta_{i,j} = 1
ηi,j=1时,学生因为失误而答错试题的概率,
g
j
g_j
gj表示在
η
i
,
j
=
0
\eta_{i,j}=0
ηi,j=0时,学生猜对试题的概率,Maris 1999年的论文中对
g
j
g_j
gj的另一个解释是,学生运用其他方法(跟
Q
\boldsymbol{Q}
Q矩阵中定义的方法不同)答对试题的概率。参数
s
j
s_j
sj和
g
j
g_j
gj的定义公式如下:
s
j
=
P
(
Y
i
,
j
=
0
∣
η
i
,
j
=
1
)
,
s
j
=
P
(
Y
i
,
j
=
1
∣
η
i
,
j
=
0
)
s_j = P(Y_{i,j} =0 | \eta_{i,j} = 1) , s_j = P(Y_{i,j} = 1| \eta_{i,j} = 0)
sj=P(Yi,j=0∣ηi,j=1),sj=P(Yi,j=1∣ηi,j=0)则项目响应函数为:
P
(
Y
i
,
j
=
1
∣
α
)
=
(
1
−
s
j
)
η
i
,
j
g
j
(
1
−
η
i
,
j
)
P(Y_{i,j} = 1| \boldsymbol{\alpha}) = (1-s_j)^{\eta_{i,j}}g_{j}^{(1 - \eta_{i,j})}
P(Yi,j=1∣α)=(1−sj)ηi,jgj(1−ηi,j)假设条件独立,同时被试间也相互独立,则DINA模型的联合似然函数为:
L
(
s
,
g
,
α
)
=
∏
i
=
1
N
∏
j
=
1
J
[
s
j
(
1
−
y
i
,
j
)
(
1
−
s
j
)
y
i
,
j
]
η
i
,
j
[
g
j
y
i
,
j
(
1
−
g
j
)
(
1
−
y
i
,
j
)
]
(
1
−
η
i
,
j
)
L(\boldsymbol{s},\boldsymbol{g},\boldsymbol{\alpha}) = \prod_{i=1}^{N}{\prod_{j=1}^{J}{\left[s_j^{(1-y_{i,j})}(1-s_j)^{y_{i,j}}\right]^{\eta_{i,j}}\left[g_j^{y_{i,j}}(1-g_j)^{(1 - y_{i,j})}\right]^{(1 - \eta_{i,j})}}}
L(s,g,α)=i=1∏Nj=1∏J[sj(1−yi,j)(1−sj)yi,j]ηi,j[gjyi,j(1−gj)(1−yi,j)](1−ηi,j)
Y
i
,
j
Y_{i,j}
Yi,j的条件分布依通过
η
i
,
j
\eta_{i,j}
ηi,j依赖于
α
i
\boldsymbol{\alpha_i}
αi,这会导致多种属性模式产生相同的潜在响应结果。因此,如Tatsuoka在1995年和2002论文中所讨论的那样,试题响应变量的条件分布会产生多种等价的属性向量类别。一个测试设计的课题是,通过构造试题,是的由试题响应向量
Y
Y
Y分布产生的等价类别变少。在单知识点的属性向量中,一般不会产生等价的类别。
简约的DINA模型,每个试题仅需要两个参数来描述其条件分布,其模型具有很强的可解释性。Junker 在2001年的论文1 中以及Tatsuoka在2002年的论文中,给出了基于DINA模型和MCMC参数估计方法的的应用程序。Macredy等人在1977年的论文、Haetel在1989年的论文、Doignon等人在1999年的论文都对DINA模型进行研究和讨论。
2.1.2 NIDA模型
NIDA模型由Maris在1999年的论文中提出。NIDA模型与DINA模型类似,潜在响应变量由连接方式确定。但是噪音输入的随机根源来源与属性向量 α \boldsymbol{\alpha} α。NIDA与DINA的根部不同在于,DINA使用的项目级别的参数(试题猜对率和失误率),而NIDA则是基于属性基本的参数(正确运用所掌握知识点的概率)。然而,NIDA模型中潜在响应的随机因素可能跟进潜在的认知过程。Embretson在其1997年的论文中,基于心理学对多组潜在响应模型进行了详尽的讨论。
令
η
i
j
k
\eta_{ijk}
ηijk表示第
i
i
i个学生能否在第
j
j
j题中,正确运用知识点
k
k
k,同时我们也会定义“失误率”和“猜对率”,但是在NIDA模型中,他们是定义在响应变量级别上的。
s
k
=
P
(
η
i
j
k
=
0
∣
α
i
k
,
q
j
k
=
1
)
,
g
k
=
P
(
η
i
,
j
k
=
1
∣
α
i
k
=
0
,
q
j
k
=
1
)
s_k = P(\eta_{ijk} = 0 | \alpha_{ik},q_{jk}=1), g_k = P(\eta_{i,jk} = 1 | \alpha_{ik} = 0, q_{jk}=1)
sk=P(ηijk=0∣αik,qjk=1),gk=P(ηi,jk=1∣αik=0,qjk=1)无论
α
i
,
k
\alpha_{i,k}
αi,k是0还是1,我们均将
p
(
η
i
j
k
∣
q
j
k
=
0
)
p(\eta_{ijk}|q_{jk} = 0)
p(ηijk∣qjk=0)的值设置为1。依据模型的定义,只有所有的潜在响应都正确(试题相关的知识点都能正确运用),试题
Y
i
j
Y_{ij}
Yij才能回答正确,这可以通过如下公式表达:
Y
i
,
j
=
∏
k
=
1
K
η
i
j
k
Y_{i,j} = \prod_{k=1}^K{\eta_{ijk}}
Yi,j=∏k=1Kηijk。假设潜在响应在给定
α
i
\boldsymbol{\alpha_i}
αi的情况下条件独立,则项目响应函数为:
P
(
Y
i
,
j
=
1
∣
α
i
,
s
,
g
)
=
∏
k
=
1
K
P
(
η
i
j
k
=
1
∣
α
i
,
k
,
s
k
,
g
k
)
=
∏
k
=
1
K
[
(
1
−
s
k
)
α
i
k
g
k
(
1
−
α
i
k
)
]
q
j
k
P(Y_{i,j} = 1|\boldsymbol{\alpha_i, s, g}) = \prod_{k=1}^K{P(\eta_{ijk} = 1| \alpha_{i,k},s_k,g_k)} = \prod_{k=1}^K{\left[(1 - s_k)^{\alpha_{ik}}g_k^{(1 - \alpha_{ik})}\right]^{q_{jk}}}
P(Yi,j=1∣αi,s,g)=k=1∏KP(ηijk=1∣αi,k,sk,gk)=k=1∏K[(1−sk)αikgk(1−αik)]qjk通过假设给定
α
\boldsymbol{\alpha}
α项目响应结果
Y
\boldsymbol{Y}
Y条件独立,以及各个被试之间相互独立,则该模型的似然函数为:
L
(
s
,
g
,
α
)
=
∏
i
=
1
N
∏
j
=
1
J
{
∏
k
=
1
K
[
(
1
−
s
k
)
α
i
k
g
k
(
1
−
α
i
k
)
]
q
j
k
}
y
i
j
{
1
−
∏
k
=
1
K
[
(
1
−
s
k
)
α
i
k
g
k
(
1
−
α
i
k
)
]
q
j
k
}
(
1
−
y
i
j
)
L(\boldsymbol{s,g,\alpha}) = \prod_{i=1}^N{\prod_{j=1}^J{\left\{ \prod_{k=1}^K{\left[(1 - s_k)^{\alpha_{ik}}g_k^{(1 - \alpha_{ik})}\right]^{q_{jk}}} \right\}^{y_{ij}} \left\{ 1 - \prod_{k=1}^K{\left[(1 - s_k)^{\alpha_{ik}}g_k^{(1 - \alpha_{ik})}\right]^{q_{jk}}} \right\}^{(1 - y_{ij})}}}
L(s,g,α)=i=1∏Nj=1∏J{k=1∏K[(1−sk)αikgk(1−αik)]qjk}yij{1−k=1∏K[(1−sk)αikgk(1−αik)]qjk}(1−yij)
这儿展示的NIDA模型和Junk等人在2001年论文中描述的NIDA模型,其实是Maris 1999年提出的连接模型简化版2 ,即各个试题共用参数
s
\boldsymbol{s}
s和
g
\boldsymbol{g}
g(即学生正确运用某项知识点的概率与试题无关)。DiBello等人在1995年提出了统一模型,它也是NIDA模型的另外一种扩展。在统一模型中,
s
\boldsymbol{s}
s和
g
\boldsymbol{g}
g是可以依据试题变化的,在条件分布加入了一维潜在特性,用于解释
Q
Q
Q矩阵中有意或无意遗漏的属性。统一模型的参数无法进行计算。Hartz 2002年通过重新参数化对模型进行调整,使得可以使用MCMC方法对参数进行估计。另外一项与之相关的方法是Embretson在1997年提出的非补偿的多维项目响应模型。在该模型中潜在的特征项目有连续的潜在特征而不是二分的属性组成。
2.1.3 LLM模型
上面给出的模型都是连接型模型,即掌握试题所需的知识点就会有极高的概率答对试题。分离模型的不同之处在于,拥有的属性子集可以完全弥补其他属性的不足。在一道题有多种解决策略的场景下,这种模型非常有用,而且理论上也是合理的。Maris在1999年的论文中对非连接型模型进行了讨论2 。
分离模型与补偿模型密切相关,即缺少的某项属性可以通过其他属性进行弥补。事实上分离模型是补偿模型完全补偿场景下的一个特例。线性逻辑模型是一个简单的补偿模型,Maris在1999年的论文中、Hagenaars在1990和1993的论文中对其进行了讨论。它与项目因素分析和多维项目响应模型非常类似,唯一的显著区别是该模型中的潜在变量是二分的而不是连续的。LL模型的项目响应函数(IRF)如下:
P
(
Y
i
,
j
=
1
∣
α
i
,
β
j
)
=
e
x
p
[
β
0
,
j
+
∑
k
=
1
K
β
k
j
α
i
k
]
1
+
e
x
p
[
β
0
,
j
+
∑
k
=
1
K
β
k
j
α
i
k
]
P(Y_{i,j} = 1|\boldsymbol{\alpha_i,\beta_j}) = \frac{exp[\beta_{0,j} + \sum_{k=1}^K{\beta_{kj}\alpha_{ik}}]}{1+exp[\beta_{0,j} + \sum_{k=1}^K{\beta_{kj}\alpha_{ik}}]}
P(Yi,j=1∣αi,βj)=1+exp[β0,j+∑k=1Kβkjαik]exp[β0,j+∑k=1Kβkjαik]其中
α
i
k
\alpha_{ik}
αik表示第
i
i
i个学生是否掌握第
k
k
k个知识点,
β
k
,
j
\beta_{k,j}
βk,j表示属性
k
k
k和试题
j
j
j相关的对数几率。
与一维IRT模型相关的Draney等人1995年提出的LLTM模型。LLTM模型是一个快速项目响应模型,该模型利用 Q \boldsymbol{Q} Q矩阵,通过模拟单独的认知操作如何组合来影响模型的难度参数。通过这种方式,不同的难度参数完全有项目所需的认知组合来决定。
大多数认知理论都是基于项目响应的一种常用策略,这会导致我们选用连接和非补偿模型,而不会选择补偿模型。然而LLM与大多数多维项目项目响应模型类似,之后的章节,我们会继续讨论该模型,研究当使用练习模型生成数据时,它是否可以对数据进行精确的建模和分类。
2.2 属性(知识点)的联合分布
在指明给定 α \boldsymbol{\alpha} α后 Y \boldsymbol{Y} Y的条件分布,最后一步就是要考虑 α \boldsymbol{\alpha} α的概率分布了。饱和模型中 α \boldsymbol{\alpha} α有 2 K 2^K 2K中可能的取值,会产生 2 K − 1 2^K - 1 2K−1个参数,当K的值远大于3或4时,就需要对模型进行简化了。
Maris在1999的论文中对几种可能的潜类别分类模型。其中最简单的一个是独立模型,即假设 α \boldsymbol{\alpha} α中的元素统计独立。针对联合分布,这需要估计 K K K个参数,与属性的个数呈正比。但是在认知诊断场景下,这种模型通常是不合理的,因为认知状态 α \boldsymbol{\alpha} α中的元素掌握情况与被试的致力水平有关。之后的章节,我们将会证明,这种假设将会导致模型的拟合效果很差。一个替代的方案是,为 α \boldsymbol{\alpha} α的分布构建一个对数线性模型,还有另外一种方法是假定 α \boldsymbol{\alpha} α通过多元正太变量 α ∗ \boldsymbol{\alpha*} α∗来产生。假定我摸已知 α k ∗ \boldsymbol{\alpha_k*} αk∗的方差,其中 K = 1 , 2 , … , K K = 1,2,…,K K=1,2,…,K,则有 K ( K + 1 ) / 2 K(K+1)/2 K(K+1)/2个未知参数需要估计,包括 K K K个阈值参数和 K ( K 11 ) / 2 K(K11)/2 K(K11)/2个四分相关矩阵的未知项。
我们通过观察,可以得到以下结果,尽管目标是获取特定的认知诊断信息,许多用于此目的的考试也可以被视为衡量少量的一般能力。无论是针对模型还是项目响应模型(IRT)都用于反映诊断信息。我们的方法通过假定给定 α \boldsymbol{\alpha} α时, Y \boldsymbol{Y} Y条件独立以及给定 θ \boldsymbol{\theta} θ时 α \boldsymbol{\alpha} α条件独立(其中 θ \boldsymbol{\theta} θ表示被试的一般能力潜在向量),来结合这些观点。
在认知诊断场景下,Tatsuoka将 α \boldsymbol{\alpha} α称作知识状态。 α \boldsymbol{\alpha} α中的每个元素都表示了一个知识点的掌握情况,或一个规则或信息的了解情况。获取这些属性的模型需要假设他们的与一个或多个广义智力或才能有关。智力水平较高得人能容易获取测试项目所需的特定属性。该概念本质上式高阶项目响应模型,其中潜在属性扮演项目的角色,在给定一般能力时,他们获取该领域内的知识时局部独立的,其中一般能力用 θ \boldsymbol{\theta} θ来表示。
在之后的章节中,我们将以分数减法数据集为例,确定分数处理和整数处理以及他们的加法规则,用于定义属性向量
α
\boldsymbol{\alpha}
α。在这个稍微窄的领域中,可以合理的假设这些规则的掌握与一维特征
θ
\theta
θ有关,该特征可以理解成四则运算能力。在复杂的场景下,就需要用到多维的
θ
\boldsymbol{\theta}
θ向量了。在任何场景下,在给定
θ
\boldsymbol{\theta}
θ的情况下
α
\boldsymbol{\alpha}
α的条件概率为:
P
(
α
∣
θ
)
=
∏
k
=
1
K
P
(
α
k
∣
θ
)
(1)
P(\boldsymbol{\alpha|\theta}) = \prod_{k=1}^K{P(\alpha_k|\boldsymbol{\theta})} \tag{1}
P(α∣θ)=k=1∏KP(αk∣θ)(1)我们提出的具体模型是一个具备潜在协方差
θ
\boldsymbol{\theta}
θ的逻辑回归模型。
P
(
α
k
∣
θ
)
=
e
x
p
(
λ
0
k
+
λ
k
θ
)
1
+
e
x
p
(
λ
0
k
+
λ
k
θ
)
(2)
P(\alpha_k|\boldsymbol{\theta}) = \frac{exp(\lambda_{0k} + \boldsymbol{\lambda_k\theta})}{1 + exp(\lambda_{0k} + \boldsymbol{\lambda_k\theta})} \tag{2}
P(αk∣θ)=1+exp(λ0k+λkθ)exp(λ0k+λkθ)(2)在许多应用中,比如文本中,
θ
\boldsymbol{\theta}
θ是一维的正太分布,其均值为0,方差为1,这意味着需要
2
K
2K
2K个参数。如果
D
D
D是多维的,则需要使用结构化因子载荷矩阵,其中
λ
k
\boldsymbol{\lambda_k}
λk表示
α
k
\alpha_k
αk的因子载荷向量。就像依据专家意见来构建
Q
\boldsymbol{Q}
Q矩阵,还可以用专家的意见来确定与
α
k
\alpha_k
αk相关的
λ
k
θ
\boldsymbol{\lambda_k\theta}
λkθ中的非0元素。因为数学的数量通常比项目的数量少很多,而且通常大于
θ
\boldsymbol{\theta}
θ的维度,因此应用程序主要将
D
D
D设置为1或2。基于这个原因,我们将主要的精力聚焦在
D
=
1
D=1
D=1的场景,当然二维的场景也具有很高的研究价值。在这种场景下,我们需要拟合
K
K
K个截距参数
λ
0
k
\lambda_{0k}
λ0k,以及废了的因子载荷参数。因子载荷矩阵的结构足以确保可识别性(可估计),其余要你和的参数为
ρ
\rho
ρ,它与
θ
1
\theta_1
θ1和
θ
2
\theta_2
θ2有关。
给定 α \boldsymbol{\alpha} α是项目响应相互独立,给定 θ \theta θ时, α \boldsymbol{\alpha} α中各个属性相互独立,这种层级关系在认知诊断中是合理的。在这类模型中,不考虑猜对率和失误率的情况下, α \boldsymbol{\alpha} α中包含的知识点足以确定项目响应结果。无论如何,都需要对 α \boldsymbol{\alpha} α的联合分布进行建模,我们认为给定更广泛使用的能参数 θ \theta θ, α \boldsymbol{\alpha} α中各个属性相互独立是合理的。
使用高阶潜在特性对 α \boldsymbol{\alpha} α的联合分布进行建模具有以下几个优势。在合理的情况下,将考试视为测量一个或两个通用能能力,以及构成 α \boldsymbol{\alpha} α的特定知识状态,可以极大的简化饱和模型的复杂度。我们提出的线性逻辑模型使用蒙特卡洛采集进行参数拟合也非常简单。最后,它还能对每个 α k \alpha_k αk进行分类,并且能同时估计 θ ^ \boldsymbol{\hat{\theta}} θ^的值。下面的例子中,我们将展示如何在相同的数据集上,使用两参数逻辑项目响应模型估计出的能力参数,来进行参数估计。
3. 参数估计
我们使用全贝叶斯公式来进行参数估计。联合后验分布的复杂性导致无法从后验分布进行直接采样。因此,我们使用蒙特卡洛方法进行采样。此外,因为全条件分布也不能直接进行采样,因此我们使用MH算法迭代的从分布中进行采样。参数估计基于熔断阶段(前面的数次迭代通常不稳定,因此会抛弃前面的数次迭代结果,这个操作称作Burn-in,即熔断)后的采样平均值。
3.1 高阶DINA模型
3.1.1 先验、联合和条件分布
高阶DINA模型中,
λ
、
θ
、
α
、
g
、
s
\boldsymbol{\lambda、\theta、\alpha、g、s}
λ、θ、α、g、s的先验分布如下:
λ
0
k
∼
N
o
r
m
a
l
(
u
λ
0
,
σ
λ
0
2
)
(3)
\lambda_{0k} \sim Normal(u_{\lambda_0}, \sigma_{\lambda_0}^2) \tag{3}
λ0k∼Normal(uλ0,σλ02)(3)
λ
1
k
∼
L
o
g
n
o
r
m
a
l
(
u
λ
1
,
σ
λ
1
2
)
(4)
\lambda_{1k} \sim Lognormal(u_{\lambda_1}, \sigma_{\lambda_1}^2) \tag{4}
λ1k∼Lognormal(uλ1,σλ12)(4)
θ
i
∼
N
o
r
m
a
l
(
u
θ
,
σ
θ
2
)
(5)
\theta_i \sim Normal(u_{\theta}, \sigma_{\theta}^2) \tag{5}
θi∼Normal(uθ,σθ2)(5)
α
i
k
∣
θ
i
,
λ
k
∼
B
e
r
n
o
u
l
l
i
(
{
1
+
e
x
p
(
−
1.7
λ
1
k
(
θ
i
−
λ
0
k
)
)
}
−
1
)
(6)
\alpha_{ik}|\theta_i, \boldsymbol{\lambda_k} \sim Bernoulli\left(\{1 + exp(-1.7\lambda_{1k}(\theta_i - \lambda_{0k}))\}^{-1}\right) \tag{6}
αik∣θi,λk∼Bernoulli({1+exp(−1.7λ1k(θi−λ0k))}−1)(6)
g
j
∼
4
−
B
e
t
a
(
v
g
,
w
g
,
a
g
,
b
g
)
(7)
g_j \sim 4-Beta(v_g, w_g, a_g, b_g) \tag{7}
gj∼4−Beta(vg,wg,ag,bg)(7)
1
−
s
j
4
−
B
e
t
a
(
v
s
,
w
s
,
a
s
,
b
s
)
(8)
1 - s_j ~ 4-Beta(v_s, w_s, a_s, b_s) \tag{8}
1−sj 4−Beta(vs,ws,as,bs)(8)其中 4-Beta(v, w, a, b)是4个参数的Beta分布,其中
a
<
x
<
b
a < x < b
a<x<b,它的密度函数为:
f
(
x
)
=
(
x
−
a
)
v
−
1
(
b
−
x
)
w
−
1
β
(
v
,
w
)
(
b
−
a
)
(
v
+
w
−
1
)
f(x) = \frac{(x-a)^{v-1}(b-x)^{w-1}}{\beta(v,w)(b-a)^{(v+w-1)}}
f(x)=β(v,w)(b−a)(v+w−1)(x−a)v−1(b−x)w−1 其中
β
(
v
,
w
)
=
∫
0
1
u
v
−
1
(
1
−
u
)
w
−
1
d
u
\beta (v,w) = \int_0^1{u^{v -1}(1-u)^{w-1}}{\rm d}u
β(v,w)=∫01uv−1(1−u)w−1du,此函数作为先验的函数可以方便后面的操作,超参数需要在实现项目参数的范围内,进行合理的选择。本文中使用大量样本,因此其先验分布影响不大。
基于给定
α
\boldsymbol{\alpha}
α的条件下
Y
\boldsymbol{Y}
Y条件独立,给定
θ
\boldsymbol{\theta}
θ的情况下
α
\boldsymbol{\alpha}
α条件独立,则给定
Y
\boldsymbol{Y}
Y的条件下
λ
、
θ
、
α
、
g
、
s
\boldsymbol{\lambda、\theta、\alpha、g、s}
λ、θ、α、g、s的联合后验分布为:
P
(
λ
,
θ
,
α
,
g
,
s
∣
Y
)
∝
L
(
s
,
g
;
α
)
P
(
α
∣
λ
,
θ
)
P
(
λ
)
P
(
θ
)
P
(
g
)
P
(
s
)
(9)
P(\boldsymbol{\lambda,\theta,\alpha,g,s|Y}) \propto L(\boldsymbol{s,g; \alpha})P(\boldsymbol{\alpha|\lambda,\theta})P(\boldsymbol{\lambda})P(\boldsymbol{\theta})P(\boldsymbol{g})P(\boldsymbol{s}) \tag{9}
P(λ,θ,α,g,s∣Y)∝L(s,g;α)P(α∣λ,θ)P(λ)P(θ)P(g)P(s)(9)则给定数据的情况下,各个参数的全条件分布如下:
P
(
λ
∣
Y
,
θ
,
α
,
g
,
s
)
∝
P
(
α
∣
λ
,
θ
)
P
(
λ
)
(10)
P(\boldsymbol{\lambda|Y,\theta,\alpha,g,s}) \propto P(\boldsymbol{\alpha|\lambda,\theta})P(\boldsymbol{\lambda}) \tag{10}
P(λ∣Y,θ,α,g,s)∝P(α∣λ,θ)P(λ)(10)
P
(
θ
∣
Y
,
λ
,
α
,
g
,
s
)
∝
P
(
α
∣
λ
,
θ
)
P
(
θ
)
(11)
P(\boldsymbol{\theta|Y,\lambda,\alpha,g,s}) \propto P(\boldsymbol{\alpha|\lambda,\theta})P(\boldsymbol{\theta}) \tag{11}
P(θ∣Y,λ,α,g,s)∝P(α∣λ,θ)P(θ)(11)
P
(
α
∣
Y
,
λ
,
θ
,
g
,
s
)
∝
L
(
s
,
g
;
α
)
P
(
α
∣
λ
,
θ
)
(12)
P(\boldsymbol{\alpha|Y,\lambda,\theta,g,s}) \propto L(\boldsymbol{s,g; \alpha})P(\boldsymbol{\alpha|\lambda,\theta}) \tag{12}
P(α∣Y,λ,θ,g,s)∝L(s,g;α)P(α∣λ,θ)(12)
P
(
s
,
g
∣
Y
,
λ
,
θ
,
α
)
∝
L
(
s
,
g
;
α
)
P
(
s
)
P
(
g
)
(13)
P(\boldsymbol{s, g|Y,\lambda,\theta,\alpha}) \propto L(\boldsymbol{s,g; \alpha})P(\boldsymbol{s})P(\boldsymbol{g}) \tag{13}
P(s,g∣Y,λ,θ,α)∝L(s,g;α)P(s)P(g)(13)
3.1.2 MCMC算法
下面是用使用MCMC算法进行参数估计的过程概览,针对第 t t t次迭代:
- 对于
λ
\boldsymbol{\lambda}
λ,从平均分布
U
(
λ
0
k
t
−
1
−
δ
λ
0
,
λ
0
k
t
−
1
+
δ
λ
0
)
U(\lambda_{0k}^{t-1} - \delta_{\lambda_0},\lambda_{0k}^{t-1} + \delta_{\lambda_0})
U(λ0kt−1−δλ0,λ0kt−1+δλ0)中采样候选的
λ
0
k
(
∗
)
\lambda_{0k}^{(*)}
λ0k(∗)的值,从平均分布,从平均分布
U
(
λ
1
k
t
−
1
−
δ
λ
1
,
λ
1
k
t
−
1
+
δ
λ
1
)
U(\lambda_{1k}^{t-1} - \delta_{\lambda_1},\lambda_{1k}^{t-1} + \delta_{\lambda_1})
U(λ1kt−1−δλ1,λ1kt−1+δλ1)对
λ
1
k
(
∗
)
\lambda_{1k}^{(*)}
λ1k(∗)的值进行采样,
λ
(
∗
)
\boldsymbol{\lambda^{(*)}}
λ(∗)的接受率为:
P ( λ ( t − 1 ) , λ ( ∗ ) ) = m i n { P ( α ( t − 1 ) ∣ θ ( t − 1 ) , λ ( ∗ ) ) P ( λ ( ∗ ) ) P ( α ( t − 1 ) ∣ θ ( t − 1 ) , λ ( t − 1 ) ) P ( λ ( t − 1 ) ) , 1 } (14) P(\boldsymbol{\lambda^{(t-1)}, \lambda^{(*)}}) = min\left\{ \boldsymbol{\frac{ P(\alpha^{(t-1)}|\theta^{(t-1)},\lambda^{(*)})P(\lambda^{(*)}) }{ P(\alpha^{(t-1)}|\theta^{(t-1)},\lambda^{(t-1)})P(\lambda^{(t-1)}) } }, 1 \right\} \tag{14} P(λ(t−1),λ(∗))=min{P(α(t−1)∣θ(t−1),λ(t−1))P(λ(t−1))P(α(t−1)∣θ(t−1),λ(∗))P(λ(∗)),1}(14) - 对于
θ
\boldsymbol{\theta}
θ, 从正太分布
N
(
θ
i
(
t
−
1
)
,
σ
θ
2
)
N(\theta_i^{(t-1)}, \sigma_{\theta}^2)
N(θi(t−1),σθ2)中对
θ
i
(
∗
)
\theta_i^{(*)}
θi(∗)进行采样,
θ
(
∗
)
\boldsymbol{\theta^{(*)}}
θ(∗)的接受率为:
P ( θ ( t − 1 ) , θ ( ∗ ) ) = m i n { P ( α ( t − 1 ) ∣ θ ( ∗ ) , λ ( t ) ) P ( θ ( ∗ ) ) P ( α ( t − 1 ) ∣ θ ( t − 1 ) , λ ( t ) ) P ( θ ( t − 1 ) ) , 1 } (15) P(\boldsymbol{\theta^{(t-1)},\theta^{(*)}}) = min\left\{ \boldsymbol{\frac{ P(\alpha^{(t-1)}|\theta^{(*)},\lambda^{(t)})P(\theta^{(*)}) }{ P(\alpha^{(t-1)}|\theta^{(t-1)},\lambda^{(t)})P(\theta^{(t-1)}) } }, 1 \right\} \tag{15} P(θ(t−1),θ(∗))=min{P(α(t−1)∣θ(t−1),λ(t))P(θ(t−1))P(α(t−1)∣θ(∗),λ(t))P(θ(∗)),1}(15) - 对于
α
\boldsymbol{\alpha}
α, 从伯努利分布
B
(
0.5
)
B(0.5)
B(0.5)中对
α
i
k
(
∗
)
\alpha_{ik}^{(*)}
αik(∗)的值进行采样,
α
(
∗
)
\boldsymbol{\alpha^{(*)}}
α(∗)的接受率为:
P ( α ( t − 1 ) , α ( ∗ ) ) = m i n { L ( s ( t − 1 ) , g ( t − 1 ) ; α ( ∗ ) ) P ( α ( ∗ ) ∣ θ ( t ) , λ ( t ) ) ) L ( s ( t − 1 ) , g ( t − 1 ) ; α ( t − 1 ) ) P ( α ( t − 1 ) ∣ θ ( t ) , λ ( t ) ) , 1 } (16) P(\boldsymbol{\alpha^{(t-1)},\alpha^{(*)}}) = min\left\{ \boldsymbol{\frac{ L(s^{(t-1)},g^{(t-1)};\alpha^{(*)})P(\alpha^{(*)}|\theta^{(t)},\lambda^{(t)})) } { L(s^{(t-1)},g^{(t-1)};\alpha^{(t-1)})P(\alpha^{(t-1)}|\theta^{(t)},\lambda^{(t)}) } } , 1 \right\} \tag{16} P(α(t−1),α(∗))=min{L(s(t−1),g(t−1);α(t−1))P(α(t−1)∣θ(t),λ(t))L(s(t−1),g(t−1);α(∗))P(α(∗)∣θ(t),λ(t))),1}(16) - 对于
s
,
g
\boldsymbol{s,g}
s,g,使用平均分布
U
(
g
j
k
t
−
1
−
δ
g
,
g
j
k
t
−
1
+
δ
s
)
U(g_{jk}^{t-1} - \delta_g,g_{jk}^{t-1} + \delta_s)
U(gjkt−1−δg,gjkt−1+δs)对候选的
g
j
k
(
∗
)
g_{jk}^{(*)}
gjk(∗)进行采样,使用平均分布
U
(
s
j
k
t
−
1
−
δ
s
,
s
j
k
t
−
1
+
δ
s
)
U(s_{jk}^{t-1} - \delta_s,s_{jk}^{t-1} + \delta_s)
U(sjkt−1−δs,sjkt−1+δs)对候选的
s
j
k
(
∗
)
s_{jk}^{(*)}
sjk(∗)进行采样,
s
(
∗
)
\boldsymbol{s^{(*)}}
s(∗)的接受率为:
P ( s ( t − 1 ) , s ( ∗ ) ) = m i n { L ( s ( ∗ ) , g ( t − 1 ) ; α ( t ) ) P ( s ( ∗ ) ) ) L ( s ( t − 1 ) , g ( t − 1 ) ; α ( t ) ) P ( s ( t − 1 ) ) , 1 } (17) P(\boldsymbol{s^{(t-1)},s^{(*)}}) = min\left\{ \boldsymbol{\frac{ L(s^{(*)},g^{(t-1)};\alpha^{(t)})P(s^{(*)})) } { L(s^{(t-1)},g^{(t-1)};\alpha^{(t)})P(s^{(t-1)}) } } , 1 \right\} \tag{17} P(s(t−1),s(∗))=min{L(s(t−1),g(t−1);α(t))P(s(t−1))L(s(∗),g(t−1);α(t))P(s(∗))),1}(17)同理可以计算出 g ( ∗ ) \boldsymbol{g^{(*)}} g(∗)的接受率。
3.2 高阶线性逻辑模型
高阶线性逻辑模型(LLM模型)使用的
λ
,
θ
,
α
\boldsymbol{\lambda,\theta,\alpha}
λ,θ,α的先验分布与DINA模型相同。
β
\boldsymbol{\beta}
β的先验分布为:
β
j
0
=
4
−
B
e
t
a
(
v
β
0
,
w
β
0
,
a
β
0
,
b
β
0
)
(18)
\beta_{j0} = 4-Beta(v_{\beta_0},w_{\beta_0},a_{\beta_0},b_{\beta_0}) \tag{18}
βj0=4−Beta(vβ0,wβ0,aβ0,bβ0)(18)
β
j
k
=
4
−
B
e
t
a
(
v
β
j
,
w
β
j
,
a
β
j
,
b
β
j
)
(19)
\beta_{jk} = 4-Beta(v_{\beta_j},w_{\beta_j},a_{\beta_j},b_{\beta_j}) \tag{19}
βjk=4−Beta(vβj,wβj,aβj,bβj)(19)
使用
β
\boldsymbol{\beta}
β来替换参数
s
,
g
\boldsymbol{s,g}
s,g, 高阶线性逻辑模型的参数的联合后验分布和全条件分布,与式(9)到(13)中的表述相同。
最后,该模型的MCMC算法与之前的模型大致相同,只有第四步有些区别:
4. 对于
β
\boldsymbol{\beta}
β, 从正太分布
N
(
β
j
0
(
t
−
1
)
,
σ
β
0
2
)
N(\beta_{j0}^{(t-1)},\sigma_{\beta_0}^2)
N(βj0(t−1),σβ02)中采样
β
j
0
(
∗
)
\beta_{j0}^{(*)}
βj0(∗)的值,从正太分布
N
(
β
j
k
(
t
−
1
)
,
σ
β
j
2
)
N(\beta_{jk}^{(t-1)},\sigma_{\beta_j}^2)
N(βjk(t−1),σβj2)中采样
β
j
k
(
∗
)
\beta_{jk}^{(*)}
βjk(∗)的值,
β
(
∗
)
\boldsymbol{\beta^{(*)}}
β(∗)的接受率为:
P
(
β
(
t
−
1
)
,
β
(
∗
)
)
=
m
i
n
{
L
(
β
(
∗
)
;
α
(
t
)
)
P
(
β
(
∗
)
)
)
L
(
β
(
t
−
1
)
;
α
(
t
)
)
P
(
β
(
t
−
1
)
)
,
1
}
(20)
P(\boldsymbol{\beta^{(t-1)},\beta^{(*)}}) = min\left\{ \boldsymbol{\frac{ L(\beta^{(*)};\alpha^{(t)})P(\beta^{(*)})) } { L(\beta^{(t-1)};\alpha^{(t)})P(\beta^{(t-1)}) } } , 1 \right\} \tag{20}
P(β(t−1),β(∗))=min{L(β(t−1);α(t))P(β(t−1))L(β(∗);α(t))P(β(∗))),1}(20)
4. 仿真实验
4.1 实验方法
为了考察上诉参数估计方法的估计精度,我们为每个模型模拟生成了25个数据集,每个数据集中包含5个属性(知识点),30道试题和1000名学生。通过25次重复的估计,来还原参数
λ
、
s
、
g
、
β
\boldsymbol{\lambda、s、g、\beta}
λ、s、g、β的值。对于每个数据集,
θ
i
\theta_i
θi从平均分布
N
(
0
,
1
)
N(0,1)
N(0,1)中随机产生,
α
i
k
\alpha_{ik}
αik从伯努利分布
B
(
{
1
+
e
x
p
(
−
1.7
λ
1
k
(
θ
i
−
λ
0
k
)
)
}
−
1
)
B(\{1 + exp(-1.7\lambda_{1k}(\theta_i - \lambda_{0k}))\}^{-1})
B({1+exp(−1.7λ1k(θi−λ0k))}−1)中进行采样。使用的
Q
\boldsymbol{Q}
Q矩阵如图1所示。
Q
\boldsymbol{Q}
Q矩阵通过让每个属性单独出现,成对出现,三个一组出现来进行构建。
对于每次仿真实验,对共有的参数(如
λ
、
θ
、
α
\boldsymbol{\lambda、\theta、\alpha}
λ、θ、α)两个模型都进行估计,对于参数
s
、
g
、
β
\boldsymbol{s、g、\beta}
s、g、β则采用各自的方法进行估计。
4.2 实验结果
表2和表3给出了
λ
\boldsymbol{\lambda}
λ的平均估计值和估计值的标准差。结果显示,使用正确的模型机会影响到估计的精度,也会影响到估计结果的稳定性。比如,表2中的数据是通过DINA模型生成的,与LLM模型相比,使用DINA模型进行估计的结果跟真实数据更为接近。同时,使用DINA模型估计的结果标准差也小于LLM模型估计的结果。从表3中也可以看出同样的结果,表3中的数据是由LLM模型生成的。
学生
i
i
i在属性
k
k
k上的后验均值
α
^
i
k
\hat{\alpha}_{ik}
α^ik决定学生是否掌握了第
k
k
k个属性。当且仅当
α
^
i
k
>
0.5
\hat{\alpha}_{ik} > 0.5
α^ik>0.5是,才认为被试
i
i
i掌握了属性
k
k
k。表4给出了模型对模拟数据属性分类正确的比例。使用正确的模型进行估计的重要性通过该表可以被再一次证明。尽管使用错误的模型,也可以正确分类大量属性,但是还是没有使用匹配的模型估计的效果好。
有两种拟合度来评估
θ
\pmb{\theta}
θθθ的准确率:(1) 真值与
θ
\theta
θ的相关性,(2) 真值与
θ
\theta
θ的根均方误差(RMSE)。这两个度量指标将用于每一轮的测试中。表5展示了25轮测试的平均结果。结果显示,匹配的模型具有更好的拟合效果(比如高相关性,低RMSE)。不过差别并不是特别大,这意味着正确的设置
Q
\pmb{Q}
QQQ矩阵比选用正确的响应模型更重要。因此这部分内容需要更深入的研究。
表6的结果显示,MCMC方法可以精确的估计DINA模型中的项目参数。对于大部分的项目,估计的均值与真值之间的误差均不超过0.02。同时,25轮实验产生的变异性也很小(比较稳定)。
类似的,LLM模型的参数也可使用MCMC算法进行精确的估计(如表7所示)。然而,需要说明的是,模型估计的精度和稳定性都不如DINA模型。这可能是因为LLM模型中的项目参数更多而且参数的定义访问更广的原因。
5. 分数减法数据集实验
5.1 数据集介绍
该数据集中包含2144名学生在20个分数减法试题上的答题结果。Tatsuoka在1990年最先使用该数据集,并对数据集进行了介绍,Tatsuoka在2002年再次对该数据集进行了分析。回答对所有试题需要8项技能。表8展示了答对各题所需的技能点。因为需要需要掌握试题所需的所有技能点才能答对试题,因此这个问题适合使用连接模型。我们的分析显示,DINA模型相比NIDA模型会取得更好的拟合效果。同时,因为补偿模型需要更多的参数,更为复杂,让MCMC方法收敛的参数很难获得。因此我们在DINA模型中使用高阶潜在特性进行估计。与仿真实验不同,仿真实验中,即使数据由DINA模型生成,也可以使用MCMC方法来拟合补偿模型。我们使用了两个版本的DINA模型来对数据进行分析:高阶DINA模型(假定属性间有高阶结构)和只使用DINA模型(不引进高阶属性)。
参数估计的结果基于10条随机开始的平行链。通过计算各条路的参数样本方差的平均值,来获得标准的误差平方。每条链将会间20000次迭代,其中前10000次迭代会被熔掉。链长选择相对保守,但是容易满足Gelman规则
R
^
<
1.2
\hat{R} < 1.2
R^<1.2。这是高阶DINA模型的位置参数,
R
^
\hat{R}
R^约为1.58。
5.2 实验结果
表9展示了高阶DINA模型和普通DINA模型估计的后验均值和后验标准偏差。失误率和猜对率为0代表所有的属性都能别识别,
Q
\pmb{Q}
QQQ矩阵完全正确,且答题响应都是确定的。非0但是很小的失误率和猜对率表示模型运行随机响应。但是,如果失误率和猜对率变得很大,代表属性没有被无安全识别或者
Q
\pmb{Q}
QQQ矩阵不准确,或者该数据上使用的假设不合理。在高阶模型估计的结果中,猜对率的范围为0到0.44,的有20题中有17题的猜对率参数小于0.20;失误率的估计结果从0.04到0.33,20题中有16题的失误率估计结果小于0.20。这与Tatsuokazai 在2002年的分析结果类似。
如果估计出的失误率或猜对率过高,说明拟合的效果很差。需要特别指出的是,他们认为在通过答题响应结果来解释被试掌握的技能属性是可能是不充足的,因为试题可能会存在多种解题策略。比如第8题使用高阶DINA模型和普通DINA模型,猜对率的估计结果分别为0.44和0.47。依据
Q
\pmb{Q}
QQQ矩阵,该题需要技能7,但是如此高的参数估计结果意味着,即使别是没有掌握该知识点,也有很高的概率能答对试题。自己检查发现即使不知道分数减法的考试,只要掌握加法逆运算也能回答对问题"
2
3
−
2
3
=
\frac{2}{3} - \frac{2}{3}=
32−32="。
尽管两个模型估计出项目参数的十分相近,但是估计出的被试属性却存在很大差别。表10展示了独立模型对于属性8具有较高的估计结果。此外,这两个模型对大多数属性的分类一致性很低,当计算这两个模型的贝叶斯因子是,这种差异将变得很明显。
5.3 模型拟合
研究模型拟合度的一种方法是使用估计的参数来预测项目的成对关系,具体来说就是观测成对项目的l对数胜率。对数胜率是衡量二分随机变量的通用指标,在诊断
Q
\pmb{Q}
QQQ矩阵的正确性和评估参数模型的拟合效果领域,具有很大用处。基于模型估计的参数,可以计算出成对项目的联合分布,对于试题
j
j
j和
j
′
j'
j′,其对数胜率为:
l
o
g
[
P
(
Y
j
=
1
,
Y
j
′
=
1
)
P
(
Y
j
=
0
,
Y
j
′
=
0
)
P
(
Y
j
=
1
,
Y
j
′
=
0
)
P
(
Y
j
=
0
,
Y
j
′
=
1
)
]
(21)
log\left[ \frac{P(Y_j = 1, Y_{j'} = 1)P(Y_j = 0, Y_{j'} = 0)}{P(Y_j = 1, Y_{j'} = 0)P(Y_j = 0, Y_{j'} = 1)} \right] \tag{21}
log[P(Yj=1,Yj′=0)P(Yj=0,Yj′=1)P(Yj=1,Yj′=1)P(Yj=0,Yj′=0)](21)
计算每个项目的,计算该项目与其他项目的的观察值与预期值对数胜率直接的平均绝对偏差。除了第8个项目,高阶DINA模型相对普通DINA模型计算出的平均绝对偏差都要低。对于高阶模型,只有第8个项目的平均绝对偏差大于0.54(值为1.05),表示模型在该项目上拟合效果较差。高阶模型在其他几乎素有的项目上都取得了更好的拟合效果,高阶DINA模型在190对项目的平均绝对偏差也更小,为0.43,而普通DINA模型的值为0.55。
模型拟合效果的更通用方法是计算贝叶斯因子。这与似然率很相似,但是用于贝叶斯领域。贝叶斯因子,即边界似然比率,计算方法如下:
B
H
1
=
P
(
Y
∣
M
H
)
P
(
Y
∣
M
I
)
(22)
B_{H1} = \frac{P(Y|M_H)}{P(Y|M_I)} \tag{22}
BH1=P(Y∣MI)P(Y∣MH)(22)在式22中,
P
(
Y
∣
M
H
)
=
∫
P
(
Y
∣
λ
m
,
s
m
,
g
m
,
M
)
P
(
λ
m
,
s
m
,
g
m
∣
M
)
d
λ
m
d
s
m
d
g
m
P(Y|M_H) = \int{P(Y|\lambda_m, s_m,g_m,M)P(\lambda_m, s_m,g_m|M)}d{\lambda_m}ds_mdg_m
P(Y∣MH)=∫P(Y∣λm,sm,gm,M)P(λm,sm,gm∣M)dλmdsmdgm其中
λ
m
,
s
m
,
g
m
\lambda_m, s_m,g_m
λm,sm,gm为模型
m
m
m的参数,KaTeX parse error: Expected 'EOF', got '}' at position 24: …a_m, s_m,g_m|M)}̲为先验概率密度,
m
=
H
,
I
m = {H,I}
m=H,I。
下面不翻译了,发现作者并未给出实验结果。
5.4 HO-DINA模型和2PL模型
不翻译
5.5 使用真实数据估计的参数进行仿真研究
不翻译
6. 讨论
作者对本文的工作进行了总结。重述了本文的主要内容。最后给出了MCMC算法的估计性能。
作者使用OX语言(一种面向对象的数学编程语言)实现了MCMC算法,在2.5GHZ的处理器上,针对2144名学生的答题数据,每分钟大概成处理500次迭代(要20000次迭代才能收敛,意味着至少要运行40分钟,(,#゚Д゚))
引用文献
[1]. Junker, B.W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25, 258-272.
作者对认知诊断模型的单调性进行着论证,提出了一些假设,是的模型具有更好的可用性和可解释性。并使用MCMC算法对模型的参数进行了估计。
[2]. Maris, E. (1999). Estimating multiple classification latent class models. Psychometrika,
64, 187–212.
作者研究了潜在多分类认知诊断模型得固有性质,首次提出使用蒙特卡洛采样(MCMC)方法对认知诊断模型进行参数估计