论文导读:Exercise-Enhanced Sequential Modeling for Student Performance Prediction

Exercise-Enhanced SequentialModeling for Student Performance Prediction

智能教育系统中,如何有效预测学生表现是非常重要的,也是进行个性化推荐,学习路径规划的基础,常用的预测方式依赖于专家将学习材料进行的知识成分的标注,如题目对应的知识点等,并没有考虑题面信息。而相同的知识点的题目难度,区分度或其他技能要求都是有所不同的,所以作者考虑将体面信息进行利用,提出了Exercise-Enhanced Recurrent Neural Network (EERNN) 进行学生表现预测。

模型

模型主要包括三部分:1.使用bi-LSTM对题面信息进行表征编码;2.使用另外的LSTM结构进行知识追踪的学习;3.对于最终的预测,将EERNN进行拓展,一是加入马尔可夫性,二是采用了attention机制。

模型优点:

作者所提出的模型优点在于:

  1. 模型输入不仅利用了学生做题序列,也将题目信息加入其中。
  2. 模型由于加入attention机制,更加聚焦于当时的效果而不是长期依赖的影响。
  3. 模型解决了冷启动问题,即对于新来的学生或题目,都可以进行预测。
算法过程:

S S S表示学生集合, E E E表示练习集合,第i个学生的做题过程表示为: s i = { ( e 1 i , r 1 i ) , ( e 2 i , r 2 i ) , … , ( e T i , r T i ) } s _ { i } =\left\{ \left( e _ { 1 } ^ { i } , r _ { 1 } ^ { i } \right) , \left( e _ { 2 } ^ { i } , r _ { 2 } ^ { i } \right) , \ldots , \left( e _ { T } ^ { i } , r _ { T } ^ { i } \right) \right\} si={(e1i,r1i),(e2i,r2i),,(eTi,rTi)},其中 e j i e _ { j } ^ { i } eji表示学生i做过的第j个练习, r j i r _ { j } ^ { i } rji表示对应得分(0或1)。每个练习题是由多个词组成的,对应表示为: e i = { w 1 i , w 2 i , … , w M i } e _ { i } = \left\{ w _ { 1 } ^ { i } , w _ { 2 } ^ { i } , \ldots , w _ { M } ^ { i } \right\} ei={w1i,w2i,,wMi}。模型要解决的任务是根据学生做题序列和对应的题目信息,预测在下个题目上的得分情况:

r ~ T + 1 = P ( r T + 1 = 1 ∣ ( e 1 , r 1 ) , ( e 2 , r 2 ) , … , ( e T , r T ) , e T + 1 ) \tilde { r } _ { T + 1 } = P \left( r _ { T + 1 } = 1 | \left( e _ { 1 } , r _ { 1 } \right) , \left( e _ { 2 } , r _ { 2 } \right) , \ldots , \left( e _ { T } , r _ { T } \right) , e _ { T + 1 } \right) r~T+1=P(rT+1=1(e1,r1),(e2,r2),,(eT,rT),eT+1)

在这里插入图片描述

上图为模型架构图, e i e_{i} ei表示第i步对应的练习题, x i x_{i} xi是对应题目编码后的向量, r i r_{i} ri为对应答题结果, x ~ i \tilde{ x } _ { i } x~i为送入模型的输入,具体公式如下:

x ~ t = { [ x i , o i ] i f r i = 1 [ o i , x i ] i f r i = 0 \tilde{x}_{t}=\left\{\begin{matrix} [x_{i},o_{i}] & if &r_{i}=1 \\ [o_{i},x_{i}] & if & r_{i}=0 \end{matrix}\right. x~t={[xi,oi][oi,xi]ififri=1ri=0
其中 o i o_{i} oi是把 r i r_{i} ri扩展为 x i x_{i} xi相同维度后的向量。
EERNN模型的马尔可夫特性体现在,T+1时刻输出只与T时刻状态有关,具体如下公式所示:
y T + 1 = Re ⁡ L U ( W 1 ⋅ [ h T ⊕ x T + 1 ] + b 1 ) y _ { T + 1 } = \operatorname { Re } L U \left( \mathbf { W } _ { 1 } \cdot \left[ h _ { T } \oplus x _ { T + 1 } \right] + \mathbf { b } _ { 1 } \right) yT+1=ReLU(W1[hTxT+1]+b1)
r ~ T + 1 = σ ( W 2 ⋅ y T + 1 + b 2 ) \widetilde { r } _ { T + 1 } = \sigma \left( \mathbf { W } _ { 2 } \cdot y _ { T + 1 } + \mathbf { b } _ { 2 } \right) r T+1=σ(W2yT+1+b2)

模型引入注意力机制后,其核心在于使用了题目信息的相似性作为attention的score,具体公式如下:

h a t t = ∑ j = 1 T α j h j , α j = cos ⁡ ( x T + 1 , x j ) h _ { a t t } = \sum _ { j = 1 } ^ { T } \alpha _ { j } h _ { j } , \alpha _ { j } = \cos \left( x _ { T + 1 } , x _ { j } \right) hatt=j=1Tαjhj,αj=cos(xT+1,xj)

模型采用的损失同样为交叉熵损失,公式如下:
L = − ∑ t = 1 T ( r t log ⁡ r ~ t + ( 1 − r t ) log ⁡ ( 1 − r ~ t ) ) \mathcal { L } = - \sum _ { t = 1 } ^ { T } \left( r _ { t } \log \widetilde { r } _ { t } + \left( 1 - r _ { t } \right) \log \left( 1 - \widetilde { r } _ { t } \right) \right) L=t=1T(rtlogr t+(1rt)log(1r t))

结论

文章所提出模型和DKT模型的核心区别在于,1. 在输入中使用了题目信息,2.使用题目编码后的向量做cosine相似性计算,作为注意力机制的score应用与模型。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值