基于贝叶斯网络模型的自适应测评

最新推荐文章于 2023-02-03 10:41:14 发布

研行笔录

最新推荐文章于 2023-02-03 10:41:14 发布

阅读量2.4k

点赞数 6

分类专栏：智慧教育文章标签：朴素贝叶斯算法网络算法人工智能机器学习

本文链接：https://blog.csdn.net/qq_36317312/article/details/110161107

版权

智慧教育专栏收录该内容

14 篇文章 41 订阅

订阅专栏

今天主要跟大家介绍一篇关于自适应测评（CAT）的文章，基于贝叶斯网络模型的自适应测评
文章标题：Bayesian Network Models for Adaptive Testing

1、Abstract

使用贝叶斯网络来创建测试人类的模型
提出了几种不同的贝叶斯网络，并通过交叉验证对它们进行了测试和比较

2、Introduction

2.1、CAT–计算机自适应测评

传统的测评方式：就是一张考试卷，所有人都回答同一张试卷，来测出每个学生的能力以及掌握程度。
那么什么叫自适应测评呢？

基于学生上一题及之前测评题上的作答情况，采用大数据及人工智能技术自适应选择下一道测评习题
每个人最终形成一套个性化的测评题集
高效：仅少量的题可测评出学生能力

如左图可以看到给学生一个问题Qt,根据学生做题目的对与错，然后有一个认知诊断模型进行诊断，然后再通过选题策略，选择与学生能力相匹配的题目，通过少量的题目能够快速诊断出学生的能力。同时避免了对一些低水平的同学，题目太难，使学生丧失信心，或者对于一些高水平的学生，题目太简单，使学生变得无聊。

右图展示的是个性化测评题集，首先由两个同学e1、e2开始作答，第一题给相同的题目，根据两个同学的答题情况，e1同学答对了，那么就会从题库里选择比较难一点的题目。e2同学答错了，那么下一道题就从题库选择简单的题目。真正做到千人千面，不同的学生所对应的题目也有差异。

背景

自适应测验包含两部分：
一部分是认知诊断模型，即之前更新的NeuralCD，还有经典的IRT、MIRT 模型。还有一部分是选题策略，基于诊断模型对学生的学习情况做出诊断结果，然后给学生选些题目，学生做了以后再给学生一个诊断，根据诊断结果再给学生选题，然后再诊断再选题，这样周而复始，这就是自适应测试的过程。
在这里插入图片描述
上图后期我会继续更新博客来进行补充，今天主要讲贝叶斯网络模型的自适应测评。

贝叶斯网络是一种条件独立性结构，其对CAT的使用可以理解为项目响应理论（IRT）的扩展

2.2、贝叶斯网络

贝叶斯网络：用来反应世界上一些事物的可能的情况的发生概率
结构组成：贝叶斯网由一个有向无环图（DAG）和条件概率表（CPT）组成
优点：提供了方便的框架结构来表示因果关系，使得不确定性推理变得在逻辑上更为清晰、可理解性强。
在这里插入图片描述
图中共有五个结点和五条弧。下雪A1是一个原因结点，它会导致堵车A2和摔跤A3。而我们知道堵车A2和摔跤A3都可能最终导致上班迟到A4。另外如果在路上摔跤严重的话还可能导致骨折A5。这是一个简单的贝叶斯网络的例子。

我们可以看出在贝叶斯网络当中的弧表达了结点间的依赖关系，如果两个结点间有弧连接说明两者之间有因果联系，反之说明两者之间咩有依赖关系，是相互独立的。

为什么要用这个？

用贝叶斯网络结构可以使人清晰的得出属性结点间的关系，进而也使得使用贝叶斯网进行推理和预测变得相对容易实现。

下面就是条件概率表（CPT）

当使用贝叶斯网络进行推理时，实际上是使用条件概率表当中的先验概率和已知的证据结点来计算所查询的目标结点的后验概率的过程。

还是以上图节点连接的例子来解释，如果将结点A1下雪当作证据结点，那么发生A2堵车的概率如何呢？
可以看表2.1，知道了下雪了堵车的条件概率。
如果是多个条件时，那么将会复杂一点，由表中可以看出，当堵车A2和摔跤A3取不同的属性值时，导致迟到A4的概率是不同的。
在这里插入图片描述

所以说在自适应测评的过程中，我们知道了学生回答一些问题的证据来预测后续正确回答题目的概率

Data Collection

设计方案：一份针对文法学校学生数学知识的纸质测试，内容主要是简单函数(主要是多项式、三角和指数/对数)。学生们被要求解决不同的数学问题，包括图形的绘制和阅读，图形上点的计算，求根，函数形状的描述和其他函数性质。

将问题分解成子问题:
可以将子问题从主要问题中分离出来，然后独立或独立地解决它。----完全独立
无法分离子问题，但它代表了主问题解决方案的一个子例程。-----不可分割的组成部分

最终版本测试：29道数学题，评为0-4分
问题被进一步细分53个子问题，子问题被分级，使得它们的分数之和是父问题的分数，即它落入集合{0，.。。。，4}。

3、贝叶斯网络模型

模型定义

讨论不同的贝叶斯网络模型，在解决数学问题时，我们使用不同的贝叶斯网络模型来建模学生的数学技能和学生成绩之间的关系.
首先进行定义
在这里插入图片描述
下图是具有一个隐变量和学生个人信息的贝叶斯网络，此节点连接到所有问题

下图是具有7个隐藏变量的贝叶斯网络，也叫专家模型，题库共63道题，题目以0,1计分，共7个skill，左图的红色部分对应这7个skill，黄色的表示试题，每道题所考察的skill用箭头表示
在这里插入图片描述

14种贝叶斯网络模型

在这里插入图片描述
根据模型类型可以知道，就是在模型定义里面各个变量进行组合
主要有：技能节点、技能节点状态空间、问题变量定义、附加信息
技能节点：主要设置的都是1，还有就是专家模型，表示的7个技能节点。
技能节点的状态空间：作为一个未被观测到的变量，很难决定它应该有多少个状态。在模型中，我们使用了具有2种或3种状态。
问题变量：主要分为布尔类型和整数型，使用布尔值(正确/错误)0/1评估每个子问题，或者使用整数型来进行评估，每个问题分为0-4分
附加信息：额外增加了学生的个人信息，可能会提高学生模型的质量

通过这4个变量总共组合的有14种贝叶斯网络模型

4、自适应测试（CAT）

首先，选择所使用的模型，如果这个模型包含额外的信息变量，那么在我们开始选择和提问之前，有必要插入这些变量的观察状态。接下来，重复以下步骤：

step1 选择下一个要问的问题
step2 提出问题并获取结果
step3 将结果作为证据插入网络
step4该网络将使用此证据进行更新
step5 （可选）估计后续答案

4.1 选择下一个题目

Xs代表未观察到（未回答）的变量
在这里插入图片描述

目标:从Xs中选择一个变量作为下一个问题，选择一个预期信息收益最大的问题。
在这里插入图片描述
假如我们决定回答问题X’,可能回答的结果x’，插入观察到的结果后，所有技能的熵都会改变。我们重新计算熵值，熵H（e，X’= x’j）是所有技能节点上各个熵的总和。

现在可以在回答问题X’之后计算期望的熵
在这里插入图片描述
我们选择一个问题X *来最大化信息增益IG（X’，e）

4.2更新

选择的问题X* 被提供给学生，并获得他/她的答案。该答案将变量X 的状态从未观察状态更改为观察状态x *。接下来，将问题及其答案插入证据向量e。我们用更新的证据e更新技能变量的概率分布P（Si | e）。我们还重新计算了熵H（e）的值。还将问题X *从Xs中删除，从而形成下一步s的一组未观察变量Xs + 1，并且可以重复选择过程。

下图是将整个过程进行简化

在这里插入图片描述
选题的标准：信息增益
可以看到这个y是没有观察到的，是可能作为下一题，我们现在计算这个时候的熵值
然后上面这个差值，就是信息增益。
最后在每一步选择能给他最大期望信息增益的问题
停止规则:当熵低于预先设定的阈值时，测试结束

5、模型评估

对于每个模型，以9:1划分训练集和测试集

训练集：了解相应的贝叶斯网络，使用EM算法实现来学习模型参数

测试集：用来进行测试

重复10次，获得每种类型的10个网络

附加：EM算法
最大期望算法（Expectation-maximization algorithm，又译为期望最大化算法），是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐性变量。
第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；
第二步是最大化（M），最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。
EM算法具体样例

收集的初始证据和答案将插入模型中。在测试过程中，我们根据迄今为止收集的证据估算了当前学生的答案。在步骤s的最后，我们为所有未观察到的问题Xi∈Xs+ 1计算了概率分布P（Xi | e）。然后，我们选择了Xi的最可能状态：
在这里插入图片描述
通过将该值与真实答案x’进行比较，我们在步骤s中获得了测试（学生）t的所有问题Xi∈Xs + 1的响应估计的成功率。

在步骤s中，所有测试数据（N = 281）的一个模型的总成功率定义为
在这里插入图片描述

整个过程简化：在这里插入图片描述

实验结果

在这里插入图片描述
表4显示了选定步骤s=0、1、5、15、25、30的建议网络成功率。
相似成功率的三种模型：具有3个状态的技能变量的模型，具有2个状态的技能变量的模型、专家模型。
如下图所示：我们从每个聚类中选择最佳模型
具有3个状态的技能变量的模型更为成功。具有2个状态的技能变量的模型较好，但是对于CA T来说，此测试阶段不是很重要，因为如上所述，测试通常在早期阶段终止。该专家模型在中期达到了中等质量的预测，但是在测试的后半部分其预测能力下降了。
在这里插入图片描述

也就从侧面反映了：模型之间的区别基本上仅在于模型中使用的技能变量的差异

6、Conclusion

较大的技能变量状态空间是有益的。显然，在测试的最重要阶段中，具有隐藏技能变量的3个状态的模型表现更好。仍然需要对具有3种以上状态的隐藏变量进行测试。
专家模型的得分不及简单模型，但显示出改进的潜力。所提出的专家模型比本文中的其他模型复杂得多，并且可能可以通过收集更多数据来提高其性能。
提供的附加信息仅在初始阶段会改善结果。这一事实是肯定的，因为在实践中很难获得此类附加信息。另外，使用此类信息对学生的技能做出假设在政治上是不正确的。

这是近期看的一篇文章，主要是补充计算机自适应测评(CAT)的整体框架，主要介绍了用贝叶斯网络模型来实现自适应测评。后期也会继续补充背景图中的其他框架，同时多目标优化方面也会不定期更新，关注我，每天学习新知识，我们大家一起共勉！

研行笔录

关注

6
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
1
评论
基于贝叶斯网络模型的自适应测评

Abstract使用贝叶斯网络来创建测试人类的模型提出了几种不同的贝叶斯网络，并通过交叉验证对它们进行了测试和比较IntroductionCAT–计算机自适应测评主要目标：创建更短的测试，因此它在不牺牲可靠性的情况下花费更少的时间。测试过程：模型是在以往学生样本的基础上构建的。在测试过程中，模型会进行更新，以反映正在测试的某个特定学生的能力。我们使用该模型自适应地选择下一个要问的问题，以便提出最合适的问题。Data Collection设计方案：一份针对文法学校学生数学知识的纸质测试，内容主
复制链接

扫一扫