计算机自适应测评(CAT)调研

1、背景

1.1、AI+教育

在如今的发展中,各行各业也正在探索"AI+?"的模式,现在主要介绍一下“AI+教育”的自适应学习。人工智能自适应教育的价值对于机构而言,可以提高教学质量、改善成本结构、增强扩张能力、维护团队稳定;对于学生而言,可以及时精准地知道自己的薄弱知识点、清晰地知道自己与同龄人的学习行为差异;对于老师而言,减轻负担,系统的协助授课,提高上课效率、同时准确知道学生的薄弱知识点。这也正契合了为学生的减负的目标,真正实现降本提效的需求。因此,自适应教育行业变革趋势不可阻挡。
目前的人工智能技术在教育领域应用识别类的应用已证明有用,且进入成熟期,但识别类的应用并未深入教学核心环节。人工智能应用走向更核心环节是趋势
在这里插入图片描述

1.2、自适应教育

“自适应(Adaptive)”对于机器学习和人类学习都是非常重要的一个概念,它通过挖掘大量数据来对当前情境进行感知,并进一步融合多种知识和技术实现学习进程的动态自适应调整。
在这里插入图片描述
上图可以看到在机器学习中样本选择上,可以自适应的选择一些重要的样本;在参数优化的时候,也可以自适应的调节学习的步骤;在设计模型的时候,可以用自适应的方法来调节网络结构。
在教育行业,自适应教育也逐渐出现在大众视野,比如作业帮、猿题库等教育APP
在这里插入图片描述
现在可以看到上图是基于传统的老师因材施教和大量的学生数据的自适应学习教学的对比,我们可以思考一下它们之间的联系与区别。
联系:在输入端,都有学生的学习记录,都需要对学生的水平进行一个评估,最后给出自适应的解决方案。
区别:前者的话老师所看到的学习记录是有限的,是根据学生的学习成绩来做一个自适应的推荐,而后者对于机器而言,能够记录大量的学生记录,可以进行更加精细的诊断,可以分析学生在每个知识点的掌握水平,根据这个认知诊断,再给学生进行一些推荐。

1.3、挑战与机遇
  • 怎样准确的评估出学生的在每个知识点的掌握水平?
    在这里插入图片描述
    目标
    输入:学生的学习记录
    输出:学生在每个知识点的掌握水平
    难点:正如上面那张图,传统的机器学习模型能够解决类似的任务,能够预测出学生能不能做对每道题目,但是不能分析学生过程中间对每个知识点的掌握水平,机器学习得到的表示结果都是一些隐向量,是Embedding 的一些向量,也就相当于在神经网络中,过程是一个黑盒子。
    解决思路:提出认知诊断模型,不仅能够预测学生的做题情况,而且还能够精准分析学生对某一个知识点的掌握情况。
  • 如何进行快速综合测试来评估学生的认知水平,根据诊断结果选题?
    假设现在能够进行精准的预测学生的情况,但是还是有速度的要求,不能让学生做大量的题目,希望能够是用少量的题来尽快的诊断出学生的水平。
    可以看到下图, 传统的机器学习是提供大量的数据,最后机器会给出一个诊断结果
    但是关于人的测试,往往是有限的数据,传统的测试是千人一面的,所有人考共同一张试卷,需要花大量的考试才能有一个全面的诊断。
    解决思路:计算机自适应测评,认知诊断模型+选题策略,能够更快速、更全面的诊断出学生的掌握水平,并根据诊断结果来动态出题。
    在这里插入图片描述
    根据上述两个问题,来介绍一下解决方案
    在这里插入图片描述
  • 对于准确的评估出学生的在每个知识点的掌握水平,解决方案是认知诊断(Cognitive Diagnosis)。
  • 对于快速综合测试来评估学生的认知水平,根据诊断结果出题,主要的解决方案是自适应测评(Adaptive Testing)

2、计算机自适应测评(CAT)

2.1、CAT介绍

传统的测评方式:就是一张考试卷,所有人都回答同一张试卷,来测出每个学生的能力以及掌握程度。
那么什么叫自适应测评呢?

  • 基于学生上一题及之前测评题上的作答情况,采用大数据及人工智能技术自适应选择下一道测评习题
  • 每个人最终形成一套个性化的测评题集
  • 高效:仅少量的题可测评出学生能力
    在这里插入图片描述
    如左图可以看到给学生一个问题Qt,根据学生做题目的对与错,然后有一个认知诊断模型进行诊断,然后再通过选题策略,选择与学生能力相匹配的题目,通过少量的题目能够快速诊断出学生的能力。同时避免了对一些低水平的同学,题目太难,使学生丧失信心,或者对于一些高水平的学生,题目太简单, 使学生变得无聊。

右图展示的是个性化测评题集,首先由两个同学e1、e2开始作答,第一题给相同的题目,根据两个同学的答题情况,e1同学答对了,那么就会从题库里选择比较难一点的题目。e2同学答错了,那么下一道题就从题库选择简单的题目。真正做到千人千面,不同的学生所对应的题目也有差异。

2.2、CAT流程

基于一个给定的题集,设计出题策略,其能够根据被测者的做题结果及底层认知诊断模型的输出,动态出下一道题,评估学生的知识掌握情况。
在这里插入图片描述
可以看到上图,首先初始化学生的能力估计值,先用选题策略从测评题库选出题目给学生作答,根据学生的作答情况,通过认知诊断模型更新的学生的能力值,再根据诊断结果再给学生选题,然后再诊断再选题,这样周而复始,这就是自适应测试的过程。

2.3、CAT关键要素
  • 底层的认知诊断模型:在已有的测试数据下,能最大程度准确估计学生能力,且根据学生交互式的做题数据,快速更新模型。
  • 选题策略:量化选题目标,基于底层认知诊断模型的输出,确定测试题
  • 能力评估:估计能力参数的常用方法有极大似然估计法和贝叶斯期望后验估计(EAP)方法。
  • 终止规则:固定测试长度,项目数累计到预设值即行停止;按预定的能力估计标准误的要求终止测验

3、CAT的发展

3.1、基于规则的方法

初代的自适应测评(CAT)更多的是出现在英语等专业类能力等级测评(比如语言的阅读、单词),比较有代表性的有熟知的流利说等语言类app ,那么,到底是基于什么规则呢?

基于二叉树或者多叉树的规则测试方法

对于测试前题库的准备

  • 设置1-n个能力等级
  • 每个skill level绑定奇数道试题(例如3)
    在测试的过程中,可以看下图,首先然后预设好能力等级进行测试,然后符合能力状态更新的规则进行更新,最后满足终止条件输出学生的能力等级。
    在这里插入图片描述
    主要规则:若被测者在当前能力等级全错,则其能力降2级,大部分题错降1级;若全对,则升2级,大部分对升1级
    在这里插入图片描述
    对于上面的一个具体图片而言,每个block对应一种skill level,并绑定奇数道试题,假设是三道题目,初始的能力比如是等级4,若被测者在当前block的3道题全错,则其skill level降2级(等级2),若被测者在当前block对2道题,则其skill level升1级(等级5),若被测者在当前block对3道题,则其skill level升2级(等级6)
3.2、基于知识空间理论的方法

国外在数学学科方面比较有名的计算机自适应测评就是ALEKS,它是一家以研究为基础,在线学习计划,提供课程产品为数学,化学,统计,和更多。ALEKS植根于20多年的研究和分析中,是一个行之有效的在线学习平台,可帮助教育工作者和家长深入了解每位学生的知识和学习进度,并为每位学生提供获得精通的个性化支持。其中采用的就是基于知识空间理论的方法,下面就来介绍一下知识空间理论:
在这里插入图片描述

3.2.1、基本概念

在这里插入图片描述
知识域的理解可以是有限问题(知识点)的集合Q ={q1,q2,q3,q4}
试题之间的前提关系如右图所示:q1是q3的前提,q2是q3的前提,q3是q4的前提
知识空间:所有Q的子集
知识状态:问题之间的关系
知识结构:知识状态的集合,以右图q1、q2、q3、q4为例,单独的{q3}并不是一个知识状态,因为有q1、q2前驱,只有加上前驱,才能构成知识状态,最终知识状态的集合形成知识结构(Q,K)={{∅},{q1},{q2},{q1,q2},{q1,q3},{q2,q3},{q1,q2,q3},{q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}}

3.2.2、知识空间理论框架:

目标:已知知识域(题库)和知识结构,通过测试题序列确定被测者的知识状态
起始:被测者初始的知识状态为空,或者根据以前的做题历史得到初始知识状态
选题策略:通过计算知识状态的邻居以及边界,从边界中选择一道之前未测过的题作为下一道测试题
终止策略:边界中不存在以前未测过的试题,则终止

补充:知识状态k的邻居N(k):k’∈N(k) 当且仅当d(k,k’)=1, 其中d定义为集合对称差知识状态k’的集合,k’需满足k’和k只相差一个题目
知识状态k的边界F(k): F(k) =∪N(k)\∩N(k) 邻居的并集去掉邻居的交集

在这里插入图片描述
下面还以图q1,q2,q3,q4为例
在这里插入图片描述
已知:知识领域Q={q1,q2,q3,q4},知识结构(Q,K)={{∅},{q1},{q2},{q1,q2},{q1,q3},
{q2,q3},{q1,q2,q3},{q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}},

被测者初始知识状态为∅
选择下一题:找到被测者当前知识状态∅的邻居,d(∅, {q1}) =1, d(∅, {q2}) =1, N(∅)={{q1},{q2}} , ∪N(∅)={{ ={q1,q2},∩N(∅)= ∅, 计算当前知识状态∅的边界F(∅)= ∪N(∅)\∩N(∅)={q1,q2}。从边界中选择题q1,或者q2。假设选择q2
根据下一题的作答情况更新被测者知识状态,假设q2答对,则知识状态变为{q2},否则仍然是∅
继续下一题的选择:假设当前的知识状态为{q2},依据上述的方法计算得到其边界为{q1,q2,q3},q1两次出现,所以其区分度高,作为下一道题
以此类推,如下图可以看出,测试从易往难,能力较弱者,测试提前结束,测试序列较短,能力较强者,测试序列较长,最后获得学生的知识状态。
在这里插入图片描述

3.2.3、诊断

那么获得学生的知识状态,如何得到学生掌握的技能情况?
下面就来诊断学生的技能掌握情况
基本概念

  • 技能集合S
  • 技能函数𝛄:γ(k)表示解决试题集合k所需要的最小技能集合
  • 问题函数𝛅:δ(t)表示需要技能t进行求解的试题集合
  • 技能状态函数𝛈:η(t)表示技能t可能解决的知识状态的集合

技能状态函数𝛈计算过程:

  • 由教师或领域专家建立问题函数δ(t)
  • 从知识结构中找出δ(t)的超集
  • 这些超集的集合就是函数η(t)的值。

技能函数γ(k)计算过程:

  • V= ∅
  • 获取所有技能的技能状态函数值
  • 遍历这些技能函数的值域,若k∈η(t),那么V= V∪{t}
  • γ(k) =V

下面就来举个例子
例:上述例子中假设得到被测者的知识状态为{q2,q3}
已知:技能集合S={x,y,z}
问题函数: δ(x)={{q1},{q4}}, δ(y)={{q2}},δ(z)={{q2},{q3}}
根据问题函数,找出 δ(x)、δ(y)、δ(z)超集即可
技能状态函数:
η(x)={{q1},{q4},{q1,q2},{q2,q4},{q1,q3},{q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}}
η(y)={({q2} ,{q1,q2} ,{q2,q3},{q2,q3,q4},{q1,q2,q3,q4} )}
η(z)={{q2},{q1,q2}, {q1,q3}, {q2,q3}, {q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}}
下面就来计算技能函数
在η(x)、η(y)、η(z)中找到符合知识状态{q2,q3}的,取并集
最终得到技能函数γ({q2,q3})={y,z}

3.3、基于认知诊断模型的CAT方法
3.3.1、认知诊断

认知诊断定义:认知诊断是诊断用户在某项技能或某个知识点上的水平,其被广泛应用于游戏、体育运动、招聘和教育等领域。例如,江苏卫视的“最强大脑”每个选手出场时都会展示该选手各个维度认知能力的雷达图,该雷达图是基于选手做题结果形成的。那么,根据学生的做题结果诊断出该生对每个技能点和知识点的掌握水平,是认知诊断要解决的任务。
在这里插入图片描述
在教育方面,认知诊断问题定义为:
在这里插入图片描述
输入学生的答题矩阵R,对应的是学生答的一些行为数据,加上试题与知识的关系矩阵Q-matrix,对应的是每道题目所包含的知识点
然后输出就是学生在每个知识点或技能上的水平

3.3.2、认知诊断模型

传统的认知诊断模型
在心理测量学上提出的项目反应理论(IRT),首先由三个假设条件:

  • 单技能维度:假设某个测试只测量被试的某一种能力
  • 立性假设:被试在项目上作答反应是相互独立、互不影响的
  • 模型假设:被试在项目上的正确反应概率与被试能力水平有一定关系

常用的是三参数模型
在这里插入图片描述
P(R=1)表示答对题目的概率,主要受到四个因素(α,β,θ,C)的影响,α代表区分度、β代表试题的难度、θ代表学生的能力,c代表猜测度。下图反应的是,能力越大,那么你做对题目的概率也会越大,是比较符合真实场景。
在这里插入图片描述
并且区分度α越大,那么越能够区分出学霸和学渣,可以从下图看出,区分度越大(橙色部分),区分学渣和学霸会越明显,差别也就越大。
在这里插入图片描述

3.3.3、基于IRT的CAT方法

测试前题库准备
单维度三参数IRT模型的形式:
在这里插入图片描述
精选题库:有用户答题行为,采用IRT模型训练估计试题的参数:区分度、难度
在这里插入图片描述
首先起始的时候是被测者起始θ值,通过Fisher信息选题策略选择信息量最大的一道题目,然后根据用户的答题情况,基于IRT模型,采用极大似然估计来对用户能力进行估计,最后判断是否满足终止条件,不满足终止条件则继续下一轮的选题。
终止条件:Fisher信息函数的均方根的倒数小于预先设置的值,即θ的最大似然估计的标准差足够小

3.3.4、基于贝叶斯网络的CAT方法

选择贝叶斯网络模型的模型,如果这个模型包含额外的信息变量,那么在我们开始选择和提问之前,有必要插入这些变量的观察状态。接下来,重复以下步骤:

  • step1 选择下一个要问的问题
  • step2 提出问题并获取结果
  • step3 将结果作为证据插入网络
  • step4该网络将使用此证据进行更新
  • step5 (可选)估计后续答案
    在这里插入图片描述
3.3.4.1 选择下一个题目

Xs代表未观察到(未回答)的变量
在这里插入图片描述

目标:从Xs中选择一个变量作为下一个问题,选择一个预期信息收益最大的问题。
在这里插入图片描述
假如我们决定回答问题X’,可能回答的结果x’,插入观察到的结果后,所有技能的熵都会改变。我们重新计算熵值,熵H(e,X’= x’j)是所有技能节点上各个熵的总和。
在这里插入图片描述

现在可以在回答问题X’之后计算期望的熵
在这里插入图片描述
我们选择一个问题X *来最大化信息增益IG(X’,e)
在这里插入图片描述

3.3.4.2更新

选择的问题X* 被提供给学生,并获得他/她的答案。该答案将变量X 的状态从未观察状态更改为观察状态x *。接下来,将问题及其答案插入证据向量e。我们用更新的证据e更新技能变量的概率分布P(Si | e)。我们还重新计算了熵H(e)的值。还将问题X *从Xs中删除,从而形成下一步s的一组未观察变量Xs + 1,并且可以重复选择过程。

下图是将整个过程进行简化

在这里插入图片描述
选题的标准:信息增益
可以看到这个y是没有观察到的,是可能作为下一题,我们现在计算这个时候的熵值
然后上面这个差值,就是信息增益。
最后在每一步选择能给他最大期望信息增益的问题
停止规则:当熵低于预先设定的阈值时,测试结束

4、总结

目前主流的CAT的选题策略如下图所示,主要是认知诊断模型+选题策略,从IRT模型到MIRT,由一维的拓展到多维的,还有贝叶斯网络等模型
在这里插入图片描述
我相信自适应测评(CAT)技术会发展的越来越成熟,也会应用到各个学习场景中,同时,我也会在这个方向上继续学习研究,迎接新挑战,进行新突破!

  • 13
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
WinForm自适应是指在Windows窗体应用程序中,使界面能够根据不同的屏幕分辨率和窗口大小进行自动调整,以适应不同的显示设备和用户需求。通过实现WinForm自适应,可以提供更好的用户体验和界面展示效果。 以下是一些常见的WinForm自适应技术和方法: 1. 使用控件的锚定和停靠属性:在设计WinForm界面时,可以设置控件的锚定和停靠属性,使其相对于父容器或其他控件进行自动调整。通过设置不同的锚定和停靠属性,可以实现控件的自适应布局。 2. 使用表格布局控件:表格布局控件(TableLayoutPanel)是WinForm中的一种容器控件,可以方便地实现自适应布局。通过将控件添加到表格布局控件中,并设置相应的行列属性,可以实现控件的自动调整和排列。 3. 使用流式布局控件:流式布局控件(FlowLayoutPanel)是WinForm中的另一种容器控件,可以根据容器大小自动调整内部控件的位置和大小。通过将控件添加到流式布局控件中,并设置相应的流式布局属性,可以实现控件的自适应排列。 4. 使用窗口大小改变事件:WinForm提供了窗口大小改变事件(Resize),可以在该事件中编写代码,根据窗口大小的变化来调整控件的位置和大小。通过捕捉窗口大小改变事件,并在事件处理程序中更新控件的布局,可以实现WinForm的自适应效果。 5. 使用分辨率适配:可以通过获取当前屏幕的分辨率信息,并根据不同的分辨率设置控件的位置和大小。通过判断当前屏幕的分辨率,并在运行时动态调整控件的布局,可以实现WinForm在不同分辨率下的自适应

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

研行笔录

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值