Visual Knowledge Tracing论文解读

Visual Knowledge Tracing论文解读

论文链接:[2207.10157] Visual Knowledge Tracing (arxiv.org)****

该论文已被European Conference on Computer Vision (ECCV) 2022收录

一.摘要和引言

在人类学习的过程中,他们的大脑会更新它所提取和关注的视觉特征,最终为他们最终的分类决策提供信息。本文提出了一项新的任务,即跟踪人类学习者在从事具有挑战性的视觉分类任务时不断发展的分类行为。本文提出了联合提取学习者使用的视觉特征以及预测他们使用的分类函数的模型。数据是从真实的人类学习者中收集了三个具有挑战性的新数据集,以评估不同视觉知识跟踪方法的性能。研究结果表明,本文的循环模型能够预测人类学习者在三个具有挑战性的医学图像和物种识别任务上的分类行为。

二.创新点

本文的创新点在于,探索了一个更具挑战性的视觉知识跟踪设置,在该设置中,假设学习者在学习过程中是非平稳的(即他们用于执行分类任务的视觉特征很可能随着时间的推移而变化)。本文提出一种基于循环神经网络的视觉知识追踪方法,该模型能够预测在训练过程中没有观察到的人类学习者的分类行为。本文所提出的模型利用了之前学习者反应的历史、图像和真实类别标签,以预测他们未来的反应,该模型能够比非递归baseline更准确地跟踪学习动态。

三.本文的贡献

本文做了以下三点贡献:

  1. 提出一种新的视觉知识追踪模型,联合估计非平稳人类学习者使用的视觉特征和每个时间步长分类函数。
  2. 为三个基准评估数据集 收集了一组新的注释,这些数据集来自于学习具有挑战性的视觉分类任务的人类。
  3. 在这些数据集上对几种视觉知识追踪方法进行了详细比较。

四.相关工作

1.Metric Learning

这种方法会假设学习者是平稳的,对于日常对象类别这是足够的,然而面对非平稳环境就不能奏效了。

2.Human Category Representation

现有的人类类别表示和学习模型可以分为五大类:基于规则的、基于原型的、 基于样例的、基于知识理论的和基于决策边界的方法。

它表明,通过简单的线性变换,预训练的深度图像分类器可以预测人类相似性判断,调查 了人类学习动力学在学习视觉类别时是否模仿了人工神经网络中的梯度下降,这与本文的一些工作是相关的。 然而,他们假设他们可以访问人类使用的特征空间,而本文通过学习获得这个参数。 本文还旨在提取人类对齐的表示,但在更具挑战性的环境中,学习者不是静态的,而是在学习分类任务的过程中。

3.知识追踪

基于贝叶斯的知识跟踪方法,通过假设学习者可以表示为一个马尔可夫过程,并在 学习过程中在线更新来建模学习者的知识状态。

在这一基础上深度知识追踪使用循环神经网络作为底层追踪模型,并且还提出了完全基于自我注意力的方法。

4.机器学习

五.本文使用的方法

1.问题设置

给定图像x作为输入,将人类学习者建模为返回响应的分类函数
r k = a r g m a x c P ( c ∣ x , θ k ) r ∈ { 1 , . . . , C } r^k = argmax_cP(c|x,\theta^k)\\ r∈\{1, ..., C\} rk=argmaxcP(cx,θk)r{1,...,C}
在这里,r是一个离散的类标签,表示学习者k的类响应,其中C是可能类别的数量,
θ k θ^k θk
是表示学习者状态的未观察到的参数。学习者并不是静止的,因为他们内部的知识状态会根据他们之前接触到的与任务相关的信息而变化。因此,对于给定的学习者k,在t时间对其分类功能进行建模
r t + 1 k = a r g m a x c P ( c ∣ x , θ t k , x 1 : t k , y 1 : t k , r 1 : t k ) r^k_{t+1} = argmax_cP(c|x,\theta^k_t,x^k_{1:t},y^k_{1:t},r^k_{1:t}) rt+1k=argmaxcP(cx,θtk,x1:tk,y1:tk,r1:tk)
在这里,
( x 1 : t k , y 1 : t k , r 1 : t k ) (x^k_{1:t},y^k_{1:t},r^k_{1:t}) (x1:tk,y1:tk,r1:tk)
是图像、真实类别标签和学习者k直时间t所看到和提供的响应的历史。

具体来说,在每个训练时间步,一个学习者k呈现一个图像x,他们提供他们的响应r,并以正确的类标签y的形式得到反馈。(如图B)

在这里插入图片描述

然而,为每个时间步具有单一响应的单个学习者拟合模型是困难的。或者,每个时间步要求更多的反馈,会减少在相同时间内呈现给学习者的教学示例的数量。相反,为了克服这种有限的信息设置,我们在许多学习者中训练了一个模型ϕ,允许模型发现所有学习者共享的知识状态和学习规则。一旦训练完成,模型可以预测在训练过程中没有观察到的学习者如何根据他们之前的分类行为对图像进行分类。

2.Tracing Human Learners

本文的跟踪模型ϕ可以分解为一个特征提取器f,一个分类函数ψ,以及一个非学习的非线性转换σ 。探索如何表示特征提取器和分类函数。特征提取器f的自然选择是卷积神经网络。给定图像x作为输入,特征提取器输出D维度向量z=f(x)。假设所有学习者都使用相同的基本特征提取器,并且随着时间的推移保持不变
f = f k t f=f^t_k f=fkt
并且他们只是对不同视觉特征的相对重要性有所不同。这两个假设并没有过多的限制。例如,新手和专家可能从事相同的视觉分类任务,但他们为做出决策所选择的视觉特征集不同。此外,虽然我假设特征提取器在实验的时间间隔内保持不变,但不假设学习者使用的分类函数ψ保持不变。在下一节中,将探索这个分类函数的不同选择,比较简单的静态分类器和更具表现力的循环模型。

静态跟踪模型

假设所有学习者都使用同一个分类器,该分类器不随时间变化。在这种情况下,是一个多类线性分类器,其权重矩阵和每个类的偏差,该模型类似于传统的度量学习方法,它们不试图捕捉与个人偏差或时间变化相关的任何注释器特定差异。在训练时,只是为所有学习者估计一组参数

Time-Sensitive Tracing Model

捕捉了时间演变,对每个时间步都有不同的分类器:
φ s t a t i c t i m e ( x ) = σ ( w t T f ( x ) + b t ) : φ_{static time}(x) = σ(w^T_tf(x) + b_t): φstatictime(x)=σ(wtTf(x)+bt):
所有的学习者共享相同的分类器,但在这种情况下,权重和偏差在每个时间步长是不同的,即
w t ≠ w t − 1 w_t \neq w_{t−1} wt=wt1

3.Recurrent Tracing Models

以[34. Piech, C., Spencer, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L., SohlDickstein, J.: Deep knowledge tracing. NeurIPS (2015)]为基础,通过提出两种不同的基于循环的人类视觉知识追踪模型,使其适应视觉类别学习设置。

(1)Direct Response Model

第一个模型使用一个递归网络来直接预测一个学习者根据他们之前的反应历史的反应,
ϕ d i r e c t ( x ) = σ ( φ r n n ( z 1 : t k , y 1 : t k , r 1 : t k , z , y ) ) : \phi_{direct}(x) = σ(\varphi_{rnn}(z^k_{1:t},y^k_{1:t},r^k_{1:t},z,y)): ϕdirect(x)=σ(φrnn(z1:tk,y1:tk,r1:tk,z,y)):
在这里,
φ r n n \varphi_{rnn} φrnn
是一个循环网络.实际上使用LSTM来表示它。

该模型假设学习者在时刻的知识状态是由他们以前看到的图像和他们过去的分类反应定义的。循环模型可以通过对单个学习者的隐藏状态进行调节来产生独特的变换。在这种情况下,共享特征提取器将图像转换为特征向量后,模型根据学习者的隐藏状态进行一系列非线性变换来修改特征向量。最后的线性层将特征向量转换为预测响应。该模型还取决于当前查询图像z = f(x)和相应的基础真值类标签y。

(2)Classifier Prediction Model

第二个循环模型试图提供一个更可解释的近似人类分类。在这种情况下,它不是让循环模型直接预测每个响应的概率,而是试图近似学习者内部使用的线性分类器的权重。重要的是,该分类器所取的值将取决于给定学习者的响应历史,并且在每个时间步(第t周)会有所不同.
w t k , b t k = φ r n n ( z 1 : t k , y 1 : t k , r 1 : t k , y ) ϕ c l s p r e d ( x ) = σ ( w t T z + b t ) w^k_t,b^k_t = \varphi_{rnn}(z^k_{1:t},y^k_{1:t},r^k_{1:t},y)\\ \phi_{cls_pred}(x) = σ(w_t^Tz + b_t) wtk,btk=φrnn(z1:tk,y1:tk,r1:tk,y)ϕclspred(x)=σ(wtTz+bt)
与之前的直接预测循环模型不同,现在明确地表示了单个学习者使用的分类函数。同样,这里查询图像的特征z没有经过Eqn. 4中的循环网络处理。相反,它们使用Eqn. 5中更简单的预测分类器权重进行评估。在这些应用中,必须在每个时间步查询跟踪模型多次,以确定要向学习者展示的下一个图像。如果减少执行这些查询所需的计算将获得更快的学习算法。

4.Training Tracing Models

使用标准的交叉熵损失
L = − 1 K T ∑ k = 1 K ∑ t = 1 T log ⁡ ( ϕ ( x t k ) r ) L = -\frac{1}{KT}\sum_{k=1}^{K}\sum_{t=1}^{T}{\log(\phi(x_t^k)_r)} L=KT1k=1Kt=1Tlog(ϕ(xtk)r)
共同估计上述每个模型的特征提取器f和分类函数φ的参数。在这里,
ϕ ( x t k ) r \phi(x_t^k)_r ϕ(xtk)r
表示在时间步T上,对于学习者K, φ选择类别r的模型的预测概率。训练目标是最小化训练集的学习者反应与跟踪模型输出之间的差异。

六.实验

1.数据集

在本节中,从真实人类参与者那里收集的数据上评估了用于视觉知识追踪的不同模型。本文从人类学习者那里收集了三个具有挑战性的细粒度视觉分类数据集。

图像数据

选择了三个不同的图像数据集,涵盖了三个不同的领域:人工数据、医学图像数据和不同野生动物物种的图像。

人类数据收集

人类学习者展示了在所有三个数据集上的学习。在下图中,为每个数据集绘制两个直方图,第一个直方图显示了训练阶段的正确答案数量,第二个直方图显示了测试阶段的正确答案数量。对于所有数据集,在测试阶段看到正确答案的直方图右倾斜,这表明大多数学习者在训练后都提供了正确的答案。

在这里插入图片描述

2.实现细节

所有模型主要由特征提取器和分类函数组成。特征提取器被实现为具有八层(两个卷积层,两个max-pool层,四个线性层)的CNN,并且在所有模型中都是相同的。特征提取器为输入图像生成16维嵌入,然后由各自的分类函数进行处理。

在高维特征空间上评估了一个模型,但没有发现对性能的影响。对于φdirect和φcls_pred两种循环模型,使用了一个隐藏维数为128的基于lstm的三层全连接网络。LSTM的输出被传递到一个小的两层网络,该网络将输出转换为所需的表示(响应或分类器)。

使用Adam优化器对所有模型进行小批量随机梯度下降训练,批大小为16。对于特征提取器,使用1e-5的学习率,对于每个不同的分类函数,我们使用1e-3的学习率。使用交叉熵损失进行训练。模型是通过提前停止来训练的。当最佳验证损失在35次循环中没有改善时,训练结束。训练epoch的上限为400。在学习者水平上,数据被分成训练(70%)、验证(13:3%)和测试(16:7%)三个部分,即来自同一个体学习者的序列不能在多个部分中。为了确保更稳健的结果,通过重新洗牌数据五次来验证模型,并使用微观和宏观平均精度报告拆分的平均值.

3.实验结果

在这里插入图片描述
在这里插入图片描述

4.讨论

改进思路:

  1. 目前,只在相对少量的图像数据上为每个任务从头开始训练特征编码器。改进的一个来源是对特征空间进行预训练,使其更好地反映人类的视觉相似性判断。这种改进的特征空间将为特定任务的微调提供一个更好的起点。
  2. 用设计合理的transformer网络替换LSTM是另一个可以使模型具有更大的灵活性。transfomer能够更好地捕获长期依赖关系,并已被证明在非视觉教育数据集的知识追踪中很有用。然而,这对视觉知识追踪是否有价值还有待观察。
  3. 本文的方法并没有明确地模拟记忆衰退(由于时间的流逝而导致记忆“褪色”的现象)。这可能是一个更大的问题,当跟踪较长的时间范围,例如几天或几周,而不是学习者参与的几分钟长的实验。同样,鉴于训练时间很短,假设没有显著“特征学习”发生在个体学习者身上。相反,本文将学习器建模为关注在联合嵌入空间中捕获的不同视觉特征的子集。在未来的工作中,将进一步探索这两个假设是否有效。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值