总目录 公开 学生课堂行为数据集:https://blog.csdn.net/WhiffeYF/article/details/130035547
https://www.sciencedirect.com/science/article/pii/S0957417424022590
SLBDetection-Net: Towards closed-set and open-set student learning behavior detection in smart classroom of K-12 education
论文翻译
摘要
通过对K-12教育阶段学生在课堂上学习行为的有效分析,能够极大地改善教与学之间的互动,从而提高教育质量。然而,目前对学生课堂行为的传统分析主要集中在单一场景下的封闭集行为检测。对于复杂且开放的真实课堂环境而言,挑战在于在人员密集的小型复杂场景中获取有意义的行为表征,同时在封闭集和开放集环境中都能取得良好的性能表现。为应对这些挑战,本研究引入了一种在封闭集和开放集场景中检测学生学习行为的新方法,称为SLBDetection-Net。该方法专注于准确捕捉学习行为表征,特别强调多尺度聚焦关键信息(MFKI)。本研究首先设计了一种学习行为感知注意力(LBA)机制,专门用于提取学习行为的关键特征,并捕捉不同尺度下目标的复杂特征。在此注意力机制的基础上,构建了一个主干网络特征编码器,即LBA-Swin Transformer块,以形成完整的SLBDetection-Net。通过对K-12教育真实课堂场景数据进行严格的测试和评估,并将其性能与当前最先进的(SOTA)方法进行比较,验证了SLBDetection-Net的有效性。结果表明,SLBDetection-Net在ClaBehavior数据集上的平均精度均值(mAP)达到了96.4%,在SCB数据集上达到了85.9%。这些发现凸显了该方法在提高封闭集和开放集场景下的检测精度和效率方面的显著优势,从而扩大了教育评估框架的应用范围。本研究的源代码可在https://github.com/CCNUZFW/SLBDetection-Net上公开获取。
关键词
学习行为检测;开放集;Swin Transformer;学习行为感知注意力;多尺度聚焦关键信息
1. 引言
人工智能(AI)技术在各个行业的广泛融合,是当今时代一个引人注目的快速发展趋势(Wang, Fu等人,2023)。与此同时,政府机构、教育部门和学术认证组织热烈支持教育机构中基于人工智能的决策制定和创新专家系统(Tham和Verhulsdonck,2023)。智能教育作为应对新出现挑战的一种有效解决方案,特别强调通过提高学生的参与度来了解学生的学习情况,从而形成对教学方法的评估。这一追求的一个重点是对学生学习行为的细致考察,这被认为是学生参与度的一个关键指标,并受到了大量的研究关注(Badshah等人,2023)。这种关注不仅使教育研究人员能够充分了解学生的学习习惯和个体差异,从而提供有针对性的指导和支持,还有助于教育工作者改进教学方法、提高教学质量,并推动个性化教育的实施。
在传统课堂环境中,捕捉学生行为通常涉及两种基本方法:直接法和间接法。直接捕捉是指教师能够通过视觉线索(Zahner和Wynn,2023),如面部表情、姿势和专注程度,来判断学生的学习状态。此外,教师可以通过提问来促进学生之间的互动与合作,这有助于评估学生的参与度和学习情况(Liu等人,2023)。相比之下,间接捕捉主要依赖于对学习成果的评估以及对学习日志反馈的利用(Pineda和Steinhardt,2023)。无论选择哪种方法,教育工作者都必须持续、系统地观察学生的学习行为,并仔细记录重要的观察结果(Chang等人,2019)。这种细致对于有效捕捉学生行为至关重要,以便能够提供量身定制的支持和指导。
计算机视觉技术的成熟正在革新课堂学习行为分析的格局,使其成为智能教育领域的一个重要应用领域(Wang, Li等人,2023)。智能学习行为分析系统以其持续监测、客观评估和实时交互的能力为特点,为教育工作者提供了一种高效的研究工具(Yin Albert等人,2022)。当前的研究重点是将成熟的计算机视觉框架应用于智能学习行为分析,特别是开发轻量级的课堂行为检测网络,以满足实际部署的需求,尤其是考虑到教育环境中的资源限制(Wang, Yao等人,2023)。
此外,最近的研究工作集中在识别真实课堂环境中的细微目标行为,这对于准确理解和评估学生的参与度和学习态度至关重要(Zhao和Zhu,2023)。通过分析学生的局部特征和身体姿势,一些方法能够更精确地识别和解释学生在课堂上的行为(Cong,2022)。这些技术进步不仅有助于提高整体教育质量,还在实现个性化教学方法方面发挥着重要作用。在这些研究工作中,单帧分析通常以数量有限的单个学生目标为特征,这些目标相对较大。因此,最近的大多数研究都集中在对这些较大目标的学习行为表征上,主要侧重于封闭集环境中学习行为的识别。然而,在现实世界的课堂教学场景中,智能教室中的学生行为检测领域面临着重大的研究挑战,这是由于学生数量众多、遮挡情况严重,以及在真实课堂教学环境中检测开放集学习行为的问题。因此,我们的研究问题明确如下:在存在大量学生、遮挡以及不同观察角度的情况下,如何在复杂的智能教室中准确检测和识别封闭集和开放集场景下学生的学习行为?
在本研究中,我们通过引入一种在获取行为图像信息时强调多尺度关键细节的方法来应对上述挑战。我们的方法包括设计一种称为学习行为感知注意力(LBA)的新机制。此外,我们开发了主干网络的特征编码器,称为LBA-Swin Transformer块。这些组件协同构成了学生学习行为检测网络(SLBDetection-Net)的基础。为了进一步提高检测能力,我们引入了一种专为低分辨率课堂图像设计的空间到深度卷积(SPD-Conv)模块。通过一系列详尽的实验,我们明确证明了SLBDetection-Net在具有挑战性的封闭集和开放集场景中识别学生学习行为的准确性,我们使用了两个不同的数据集。
本文的主要贡献可总结如下:
- 为封闭集和开放集场景设计的SLBDetection-Net:为了有效应对复杂课堂环境中学习行为识别的挑战,我们引入了SLBDetection-Net,这是一种为封闭集和开放集场景设计的新框架。本文首次正式提出了这两种情况下的学习行为检测问题。SLBDetection-Net背后的关键动机在于它能够在复杂场景中获取更好的学习行为表征,从而提高在封闭集和开放集行为识别场景中的检测性能。
- 作为学习行为编码器的LBA-swin变压器:提出了学习行为注意力(LBA)机制,并将其集成到Swin Transformer中,从而创建了LBA双变压器,作为一种学习行为编码的创新方法。这种方法通过强调与行为相关特征的相似性,有效地捕捉了不同尺度下目标的复杂特征,从而能够提取多尺度的关键信息。LBA双变压器在智能教室等动态环境中表现出色,为提高SLBDetection-Net的现场感知能力和行为识别效率提供了重要的技术支持,特别是在传统的K-12学校教学场景中。
- 作为小目标检测层的SPD-Conv:我们引入了空间到深度卷积(SPD-Conv)模块,该模块被战略性地用于从低分辨率课堂图像中高效提取特征。该模块提高了SLBDetection-Net的整体性能,特别是在面对智能教室环境中小目标带来的挑战时。
本文的后续部分组织如下:第2节概述了相关工作,第3节定义了任务问题和关键概念,第4节详细阐述了所提出的方法,第5节介绍了实验设置、结果和讨论。最后,第6节对本文进行了总结,并强调了未来研究的潜在方向。
2. 相关工作
本节概述了现有的识别学生学习行为的方法,以及目标检测技术的最新进展。此外,我们还简要比较了常用的主干网络和注意力机制。
2.1. 学习行为识别
确保准确的检测结果对于根据学习行为检测结果为学生提供量身定制的支持和指导至关重要。研究人员探索了各种方法,以提高在人员密集环境中定位单个学生的精度,并提高行为识别的准确性。
Zhou等人(2022)引入了一种基于深度学习的方法来识别课堂环境中的学生行为。他们从学生行为图像中提取关键的人体骨骼信息,利用CNN-10网络进行识别。在另一项研究中(Yin Albert等人,2022),将实时目标检测和跟踪相结合,以捕捉单个学生的实时图像流。一个3D-CNN网络模型有助于识别课堂上的学生行为,在教学过程中实现了对多个学生对象的实时识别。Zheng等人(2020)通过集成尺度感知检测头、特征融合策略和在线难例挖掘,对Faster R-CNN模型进行了改进,在自建的大型数据集上取得了优异的检测性能。Mindoro等人(2020)使用YOLOv3算法设计了一个课堂监控系统,以识别学生的异常行为,并引入了一个评估系统来审查模型的识别结果。Chen和Guan(2022)将跨层局部网络和嵌入连接元素纳入YOLOv4网络。通过采用RepGT和RepBox损失函数,他们开发了一个非常适合在教育环境中持续识别课堂行为的模型。Wang, Yao等人(2022)将挤压激励注意力检测机制集成到YOLOv5s中,减少了识别过程中背景信息的影响。通过采用特征金字塔技术进行分类,实现了对学生课堂行为的精确识别。Xue等人(2023)利用EfficientDet目标检测框架和质心跟踪算法构建了一个智能监考系统。
近年来,我们的团队利用深度学习和计算机视觉技术,在监控课堂上学生行为这一领域做出了贡献。我们的工作包括采用增强了挤压激励(SE)机制的YOLOv5s结构,以提高准确性(Wang, Yao等人,2022)。此外,我们通过集成通道注意力模块(CBAM)和一种新颖的数据增强技术,提高了行为检测能力(Wang, Li等人,2023)。为了应对多目标场景中的挑战,我们开发了一个结合了Morphing DETR、Swin Transformer和轻量级特征金字塔网络(FPN)的系统,从而提高了检测精度(Wang, Yao等人,2023)。
2.2. 封闭集和开放集目标检测
目标检测是计算机视觉的一个关键组成部分,涉及在图像或视频中识别和定位目标。深度学习技术的发展极大地改变了目标检测,从传统的基于算法的方法转变为深度学习方法。这种转变在封闭集和开放集目标检测方面都带来了显著的进步。以下部分深入探讨了这两个领域的当前发展状况。
2.2.1. 封闭集目标检测
在封闭集目标检测中,所有目标类别在训练阶段都是已知的。当前封闭集目标检测的主流方法可以分为两种主要类型:
首先,一些方法依赖于各种卷积神经网络(CNN)进行特征提取。在这一类别中,出现了两个突出的派别。以You Only Look Once(YOLO)系列(Redmon等人,2016;Redmon和Farhadi,2017;Redmon和Farhadi,2018)和Single Shot MultiBox Detector(SSD)系统(Liu等人,2016)为代表的一阶段目标检测算法,在推理速度方面表现出色,并将目标检测问题重新构建为回归任务。另一方面,以Faster R-CNN为代表的二阶段目标检测算法,将该问题视为分类任务。这一类别包括R-CNN和Fast R-CNN(Girshick,2015)等常见算法。
随着Transformer在自然语言处理中的卓越表现,研究人员开始将其集成到计算机视觉领域。基于视觉Transformer的目标检测算法受到了关注,为该领域开辟了新的途径。2020年,Carion等人(2020)引入了一个名为Object Detection with Transformers(DETR)的端到端目标检测框架,标志着Transformer首次在目标检测中使用。为了解决Transformer收敛和特征空间分辨率的挑战,Zhu等人(2020)引入了Deformable DETR,其性能优于DETR,尤其是在处理小目标方面。然而,编码器令牌数量的增加导致了更高的计算成本。为了缓解这一问题,Roh等人(2021)引入了Sparse DETR,选择性地更新解码器可能引用的令牌,从而实现高效的目标检测。
2.2.2. 开放集目标检测
与封闭集目标检测不同,开放集目标检测面临着检测训练数据中未见过的类别的挑战。Dhamija等人(2020)率先对开放集目标检测问题进行了正式的概念化和研究,强调了在现实世界场景中需要一个能够有效识别和拒绝未知目标的系统。Joseph等人(2021)探索了对比聚类和基于能量的方法,从而开发出了一种名为ORE的新方法,专门用于应对开放世界检测的挑战。Zheng等人(2022)扩展了开放集目标检测的范围,将其重新定义为检测和发现的组合任务,并通过一个名为Open-Set Object Detection and Discovery(OSODD)的创新两阶段框架来解决这一问题。开放集目标检测仍然是一个备受关注的研究领域,后续的工作集中在提高检测未知类别的准确性,并设计有效的实时应用集成策略。通过分析雅可比矩阵的弗罗贝尼乌斯范数,Park等人(2024)揭示了已知类别内的类间分离学习在开放集识别(OSR)中的重要作用。基于这一发现,他们开发了m-OvR损失函数和辅助技术,以增强未知类别的分离。为了解决开放集识别中的领域偏移问题,Sun和Dong(2024)提出了一种探索性的双空间一致采样方法,并设计了IT-OSR框架,该框架包括一个条件双对抗生成网络。这个框架可以作为任何归纳式开放集识别方法的基线方法,其有效性已通过实验结果得到验证。此外,通过对视觉Transformer的实证分析,Sun等人(2023)引入了一种用于开放集细粒度图像识别的层次注意力网络(HAN),并进一步设计了专门用于开放集细粒度识别的HAN-OSFGR方法。
随着目标检测技术的不断发展,它将在各个行业中解锁众多新颖的应用和潜在机会。
2.3. 注意力机制
注意力机制是个体认知能力的关键组成部分(Cortese和Peñalver,2010),使个体能够有选择地关注特定信息,同时过滤掉无关的刺激。这提高了认知效率,有助于精确的信息处理(Wang, Yang等人,2022)。注意力机制在包括心理学、神经科学和计算机科学等多个领域都有应用(Li和Wang,2023)。
在计算机视觉领域,可以实现各种注意力机制,如空间注意力、通道注意力和混合注意力。空间注意力使网络在处理图像或视频时能够关注特定的空间区域,确保有效地提取重要信息,同时抑制无关数据。自注意力机制作为一种代表性算法,增强了模型对数据结构和相关性的理解,有助于提高性能。通道注意力动态调整特征图通道的权重,以重新校准每个通道的重要性(Shaw等人,2018)。像挤压激励网络(SENet)(Hu等人,2018)和高效通道注意力网络(ECA-Net)(Wang等人,2020)这样的算法,帮助网络在不同通道中选择和加权特征信息,从而增强特征提取、表征学习和整体模型性能。卷积块注意力模块(CBAM)(Woo等人,2018)和跨模态Transformer(CMT)(Jiang等人,2022)是代表性算法,使模型能够捕捉和整合来自多模态数据的信息,处理复杂任务并提高模型性能和泛化能力。