Improving the Item Selection Process with Reinforcement Learningin Computerized Adaptive Testing 笔记

本文提出利用强化学习解决CAT项目选择中的隐性认知信息问题,通过数据驱动学习算法,自动优化项目选择,避免依赖于不精确的知识状态估计,以提升测试效率和准确性。
摘要由CSDN通过智能技术生成

作者:Yang Pian, Penghe Chen, Yu Lu, Guangchen Song, and Pengtao Chen

摘要

        项目选择是CAT有效评估考生的知识状态的关键步骤。现行的项目选择算法主要依赖于信息指标,存在两个问题:一个是内隐的认知信息,如测试项目之间的关系以及知识的成分,不能被基于信息的方法捕获,另一个是基于信息的算法根据考生的知识状态计算项目的适合度,而考生的知识状态本身就是估计的,是不精确的。为了解决这两个问题,本文提出采用强化学习技术以数据驱动的方式去自动地学习项目选择算法。它还能够正确的捕捉不同测试项目之间的内隐认知关系,避免不必要的项目测试,并且完全不依赖于考生估计的知识状态。

关键词

        Reinforcement learning, Computerized adaptive testing, Item selection, User simulator, Knowledge space

1 Introduction

        CAT是一种基于计算机的测试形式,它的目标是基于所选择的测试项目序列和相应的反应,估计考生的知识状态。项目选择算法是CAT的关键组成部分,它控制着怎样定义最合适的测试项目,并且基于考生历史响应来选择项目。实验证据表明精心设计的项目选择算法可以为考生提供更合适的测试项目,提高测试和学习效率,并且创建更灵活的测试体验。

        为了找到测验最合适的项目,应用了不同的技术来建立项目选择算法。基于信息的算法是最典型的算法,它对响应正确性不确定性较高的项目进行优先排序。这些算法基于考生估计的知识状态计算不确定性,并采用各种信息度量。然而,基于信息的算法有两个主要的问题。一个是这些算法主要利用显式信息来找到下一个“最佳”项目,没有考虑隐性认知信息,像测试项目和知识成分之间的认知结构,这有助于根据被测项获得考生看不见的知识成分的知识状态,避免不必要的项目测试。另一个是测试项目信息的计算很大程度上依赖于考生的知识状态,这是固有的估计性和不精确性。因此,测试项目的计算信息可能不精确,这可能导致不恰当的项目选择。

        为了解决这两个问题,我们采用强化学习技术使用数据驱动方法来自动的学习项目选择算法。强化学习是一个对顺序决策任务进行建模的计算框架,并已被探索用于解决各种与序列相关的教育任务,例如,教育活动调度和学习材料推荐。所有这些顺序决策任务都证明了强化学习技术的有效性,这激励着我们用强化技术来解决项目选择任务。

        强化学习技术的适用性可以分为三个方面。第一,项目选择本质上是一个顺序决策任务,与强化学习的能力相匹配。第二,强化学习的数据驱动方法让学习到的项目选择算法考虑测试项目的显式和隐式两种信息。第三,基于强化学习的项目选择算法不依赖于考生的知识状态,这避免了不精确估计的影响。

2 Related Work

2.1 Item Selection in Computerized Adaptive Testing

        作为CAT的关键组成部分,项目选择算法设计受到了广泛的关注,提出了各种各样的选择技术。经典的选择方法主要聚焦在测试项目提供的局部或全局信息。相关统计数据包括费雪信息量,香农熵,KL信息量等。此外,非统计指标,例如,项目暴露、内容平衡和时间控制,也被整合到项目选择中,以确保测试平等。此外,很多最近的研究已经将多种测量方法或标准结合到一个单一的选择算法中,从而提高了性能。

        总体而言,目前的项目选择算法大多数依赖于显式项目特征或者考生的知识状态,忽略了有价值的教学信息。由于测试项目和知识成分之间的隐式关系将为更有效的项目选择算法提供有价值的信息,我们建议在新的算法设计中纳入这一特征。

2.2 Reinforcement Learning for Education

        强化学习是建模顺序决策过程的一种学习范式。它已经被用于解决教育中不同类型的排序任务。

        首先,强化学习已经被用来生成个性化的课程学习序列,例如,实施教学政策归纳任务和组织课程学习顺序安排。先前的研究表明,强化学习诱导的教学政策在优化教学活动序列方面明显优于基线。其次,强化学习算法已被用于以提示和支架的形式提供自动学习反馈。例如,Efremov、Ghosh和Singla利用强化学习基于编程代码来生成不同的提示。最后,强化学习算法也被用于学习材料推荐,包括对在线教育系统中的研究内容进行排序,以及生成课程推荐。

        可以看出,强化学习已经被用于解决各种具有顺序特征的教育任务。然而,针对CAT中的项目选择任务的研究较少,这促使我们用强化学习方法提高项目选择的效率和准确性

3 Framework Illustration

        在本文中,我们尝试在CAT中利用强化学习技术建立一个新的项目选择算法。如图1所示,框架包含三个模块:1)基于强化学习的项目选择模块,负责学习项目选择策略,选择最好的下一个测试项目;2)状态估计模块,负责根据响应(回答)来估计考生的知识状态;3)用户模拟模块,生成训练基于强化学习的项目选择模型和状态估计模型所需的数据。

        在每一轮的互动中,基于最新的系统状态,项目选择模块将决定是否选择一个新的测试项目或发布测试结束(EOT)。如果是一个新的测试项目的情况,根据考生的知识状态计算出相应的回答(相应),并返回到项目选择模块进行另一轮的互动。与此同时,考生还将该测试项目与她的回答历史进行比较,并生成相应的奖励传到项目选择模块中的DQN模型中去。如果是EOT的情况,将选择的项目的历史和响应输入状态估计模块,得到考生的知识状态,然后将其与真值进行比较,并为项目选择模块中的DQN模型生成奖励。

RL-Based Item Selection Module.

        强化学习是一个针对序列决策问题的计算框架,其中Q-learning是一种典型的无模型算法,它试图寻找最大化期望回报的最优策略。本文利用了强化学习的DQN模型来学习项目选择算法。与深度学习网络集成,DQN模型能够处理较大的状态空间。一般来说,DQN模型包含四个主要元素组成:状态、行动、奖励和策略。状态:记为s_t,表示考生的在不同测试项目上的回答结果;行动:记为a_t,表示系统发布的下一个要测试的项目;奖励:记为r_t,表示系统在状态s_t采取行动a_t后获得的即时奖励,通过最小化损失函数来估计模型参数;策略:记为\pi\left ( s_t \right ),计算给定当前行为主体状态s_t的所有测试项目上的概率分布。

State Estimation Module.

        本模块的目的是基于考生的测试项目和回答推断考生的知识状态。在本文中,我们采用多层感知机(MLP)模型进行这种估计。具体来说,使用一个三层的多层感知机,包括输入层、隐藏层和输出层。在本文中,我们通过最小化真实知识状态和估计知识状态之间的最大差异来训练状态估计模型,与常用的均方误差损失相比,它对所有知识成分的准确估计更为敏感。

User Simulator Module.

        因为真实世界中的公开数据集缺乏数据类别或者数量需求,所以我们建立一个用户模拟器来产生训练和评估DQN和MLP模型的数据。提出的用户模拟器包含三个部分:知识结构生成器(KSG)、考生状态生成器(ESG)、响应序列生成器(RSG)。具体来说,知识结构生成器(KSG)基于知识成分和它们的关系产生所有可能的知识结构,使用由知识空间理论指导下的深度优先搜索算法。考生状态生成器(ESG)根据预定义的认知分布将知识结构生成器(KSG)生成的知识结构分配给考生,然后使用掌握阈值将每个知识结构转换为知识状态向量。响应序列生成器(RSG)构造了一个项目池,并为所有知识成分产生具有难度值的测试项目,然后生成多个不同长度的测试序列,分发给考生。根据考生知识状态生成器(ESG)的知识状态,当考生的掌握水平超过项目难度时,考生的回答会正确。通过这样做,可以获得所有考生的反应序列。

4 Exemplary Case(范例)

        我们使用一个范例来说明项目选择过程。在这个样例中,组成了来自初中数学的5个知识成分和100个不同的测试项目。如图2所示,假设考生的真实知识状态是[0.84,0.75,0.68,0.8,0.71],系统可以通过40个测试项目来估计知识状态为[0.82,0.75,0.65,0.82,0.73]。以第一个知识成分为例,项目[16 13 10 11 4 15 19 17 12]属于这个知识成分。考生的响应为[√,√,√,√,√,√,×,×,√,]。可以看出,考生正确回答项目16的难度为0.8,错误回答项目17的难度是0.85。???因此,该系统合理地估计考生对第一知识成分的掌握水平为0.82。

5 Conclusion

        在本文中,我们采用强化学习技术以数据驱动的方式来为CAT自动地学习项目选择算法。具体来说,我们利用DQN模型决定怎样在每一轮选择最合适的测试项目。基于所有选择的测试项目和回答,我们采用MLP网络来估计考生的知识状态。此外,为了训练提出的强化学习模型和MLP(多层感知机)模型,我们设计了一个用户模拟器来生成训练数据。提出的方法可以更好地利用隐式认知过程信息,避免不精确的知识状态估计的影响,从而提供了更有效的项目选择过程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值