Research on Classroom Emotion Recognition Algorithm Based on Visual Emotion Classification

在本文中,我们通过为训练图像分配权重并通过注意力机制网络对视觉情感进行分类来构建一个课堂情绪识别算法,然后添加了一个设计好的损失函数,以便它能够关注未被遮挡的脸部特征部分,并能够表征目标情绪,从而提高在遮挡下的面部情绪识别的准确性。分析课堂学生的显著表情特征并建立分类标准和标准库。收集了课堂学生面部表情的视频,使用多任务卷积神经网络(MTCNN)进行人脸检测和图像分割,并选择具有更好特征形态的视频来构建标准数据库。提出了一种结合图像整体和局部特征的视觉运动分析方法。为了验证所设计的MTCNN模型的有效性,通过训练RAF-DB、掩码数据集和本文构建的课堂数据集,测试并比较了两个主流分类网络VGG16和ResNet18与MTCNN的性能。训练后的最终准确率分别为ResNet18的78.26%和VGG16的75.03%。结果表明,本文提出的MTCNN具有更好的识别效果。损失函数的测试结果也显示,它可以有效地提高识别准确性,MTCNN模型在识别学生面部表情时的准确率为93.53%。最后,通过表达特征训练方法扩展了数据集,并且实验研究表明该方法表现良好,可以有效进行识别。

一、引言

        人类情感与行为密切相关。情感源于客观事实,是决定人类日常生活质量的关键因素,它们与人类需求有关。当人类需求得到满足时,人们倾向于产生积极情感并表现出积极行为。课堂教学环境与一对一在线辅导教学环境和线下辅导教学环境不同,因为学生数量庞大,教师无法关注每个学生的情绪状况,并且在考虑课程安排的同时总是给予反馈。学生在学习过程中的情绪状态可能会对整体学习结果产生正面或负面的影响,这导致处于抑郁情绪中的学生因为无法及时调整自己的状态以减少学习热情而受到影响,从而影响整个课程的效率,这无疑是一半的努力。追求教学效率是教学的本质特征,也是当前课程改革的重要目标和教育内部发展的必然要求。在课堂教学中,教师希望实时了解学生的情绪变化和学习状态,及时调整课程进度,并确保学生能够及时、全面地掌握所教授的内容。根据梅拉比安的研究,55%的情绪信息是通过面部表情表达出来的。因此,面部表情识别可以确定学生的情绪状态并向教师提供及时的反馈,以便教师能够实时判断当前课堂学生的情绪变化,做出及时的课程调整,激活课堂氛围,调动学生的学习积极性,并提高整体课堂学习效率。

        情感分析,也称为观点挖掘,是处理和分析用户生成内容的过程,以研究用户表达的情感、观点和态度,并对其进行评判或评估。情感作为人类社会行为的一个重要属性,代表了个体对特定目标的观点和态度,并对人类的认知、社会化、决策和推理等各个方面产生巨大影响。目前社交媒体情感分析的研究主要集中在文本分析方面,已经取得了许多研究成果,但基于图像和视频等视觉内容的情绪分析研究仍然非常有限。俗话说,“一张图片胜过一千字”,与文本内容相比,图像和视频内容更简单直观;特别是随着多媒体技术和摄影设备的普及,越来越多的用户倾向于使用图像等视觉内容来表达他们的观点和情感,因此社交媒体中的视觉内容量也在增长。这些视觉内容的识别和检索已在各个领域得到广泛应用;然而,这些视觉内容传达的用户情感和观点在很大程度上反映了他们的行为偏好和需求,因此深入探索其中的态度和情感对于公共舆论监测和企业决策也很重要。尽管视觉内容中所体现的情感是复杂和主观的,但人类情感认知的共同点是人类情感认知的基础。传统视觉情感分析研究主要使用图像低级视觉特征进行情感分析,如颜色特征、纹理特征和轮廓特征。然而,这些算法不足以弥合低级视觉特征与图像高级情感语义之间的巨大语义鸿沟,因此情感分类的效果并不令人满意。

近年来,人工智能在教育中扮演着越来越重要的角色,AI和深度学习相关技术(如图像识别、语义识别和语音识别)逐渐被应用于特定领域,为自适应教育的开发提供了技术支持。会议指出,人工智能在教育中的应用之一是实时监控学生学习表情、姿势和其他宝贵信息。在传统课堂中,学生人数众多,教师需要控制教学节奏,因此在课堂教学过程中难以关注每个学生的情绪状态并进行相应的反馈调整,这使学生无法在情绪低落时调整自己的状态,从而降低他们对学习的积极性,并影响教学效率,无疑这事半功倍。传统的课堂评估方法,如课后对话和问卷调查,过于滞后,不能帮助教师及时进行调整。

        因此,如何在课堂上及时有效地反馈学生的情绪状态成为课堂教学中的一个紧迫问题。本文构建了一个算法模型,借助人工智能技术进行课堂情感识别,这对技术关注学生课堂情绪和提高课堂教学质量具有重要意义。

二、相关工作

        传统的视觉情感分析方法主要使用视觉认知和心理学等领域知识来提取图像的颜色、纹理和形状等底层视觉特征,并通过统计方法进行情感分析。智利大学开发了一个基于软计算技术的纹理检索系统。通过研究人类对纹理的主观心理感知,该系统获得了由12个形容词组成的纹理的定性描述,这些描述可以进一步用于纹理查询,并通过神经网络评估100个纹理,通过选定的形容词将这些主观定性描述与纹理特征关联起来。尹等人通过检测图像中直线的形状,进一步提取直线的方向直方图特征,并融合其他特征进行情感识别。然而,这些方法基于简单的统计方法提取特征,并没有考虑人类情绪元素。侯赛因结合了基于心理学原理的人类情感和艺术绘画理论,从而实现了艺术图像的情感类别标注。由于传统的视觉情感分析方法不足以克服语义差距问题,一些研究人员开始围绕图像的语义内容构建中间语义表示,以更好地表达图像的情感。其中最具代表性的工作是金赫等人的方法,他们通过设计形容词名词对(ANP)并使用对应于不同图像的ANPs作为视觉情感的中间表示,例如,美丽的花朵、可爱的狗等。然而,在实际应用视觉情感本体库VSO时仍存在一些问题。首先,VSO中的ANPs只能描述图像中的视觉概念,无法识别哪个ANP与图像中的主要情感高度相关;其次,社交网络中的图像有不同的主题,这些主题可以按主题划分,一个主题通常包含许多相关的图像。然而,VSO模型无法融合同一主题下多个相关图像的情感信息,因此无法选择更具代表性的ANPs来描述图像的情感。为了解决上述问题,李等人提出了一个基于视觉情感的主题模型,该模型试图通过社交网络中的主题增强对图像中视觉语义对象及其情感的理解。

        一个好的老师能够准确把握课堂情绪,以改善学生的注意力,让他们感到快乐和满足,并最终使他们喜欢他们的课程,

        而一个不擅长把握课堂情绪的老师可能会使课堂陷入无聊的叙述,学生的注意力不集中,学习效率低下。学者们已经对课堂情绪进行了大量研究,并深入分析了教师和学生课堂中的行为和情感表达,以及这些表达后课堂会产生什么样的教学效果。罗华教授认为,情感维度可以看作是一个更高层次秩序的连续体,并描述情感不仅作为简单或复杂、象征性或抽象的解释,还作为从无意识到内在和外部的控制特征,这可以称为内化。拉尼等人提出了一个教育目标的分类理论,对于这个目标分类系统需要根据其中的情感进行划分,其划分维度主要反映在五个层次上,即接受、反应、价值判断、组织和价值及其复杂性的表征,每个层次都有其情感意义,并且也有对应于该层次的子层次。对于课堂环境中的情感识别,曾等人通过结合约束局部模型(CLM)的AAM模型获得了面部形态特征,并将课堂情绪类别分类为五种类型:倾听、怀疑、不理解、抵抗和轻蔑。基于Izard的最大判别性面部动作编码系统,通过面部偏移角度、眼角和眉角以及嘴角的角度来评判。这五种表情状态是通过面部形态特征的变化、眼睛与眉毛之间的角度以及嘴角的角落来判断的。

        在课堂教学中,教师应该关注学生的情感学习,并根据表情反馈及时调整教学策略,以调动学生的积极学习情感。学者们对课堂教学和学习进行了许多研究,这些研究从多个不同的角度提供了课堂教学和学习过程的全面而深入的分析,从而促进了教学和学习的发展。自2000年以来,计算机情感分析和教育教学的整合得到了极大的推进。研究人员使用视频分析来理解学习者的情绪状态,为教师提供及时的反馈,以便他们能够修订课程内容、调整课程难度、选择教学方法并控制教学时间表,极大地促进了教学模式的变革和改进教学质量。在课堂教学环境中,情感识别研究面临的最大问题是需要检测独特环境下的独特情绪类别,目前缺乏公开可用的课堂环境情感数据集。由于学生在课堂环境中的姿势和方向变化较大,低头侧身等动作的存在会导致面部图像不完整。再加上背景、照明和遮挡等因素的影响,可用的面部图像更少。如何识别情绪并在存在面部遮挡的情况下实现高准确率也是研究的重点。

三、视觉情感分类课堂情感数据集构建

        在课堂教学中,学生的表达和行为可以极大地表达他们的心理和情感状态。对于他们感兴趣的或喜欢的课程,他们倾向于表现出快乐、专注和积极的情绪,面部表情如微笑和集中注意力。对于他们不喜欢甚至讨厌的课程,他们倾向于表现出抵抗和轻视等负面情绪,脸上伴有如皱眉等负面表情。这些负面情绪部分是由课程难度和适应教师教学风格的困难造成的,而另一部分是由学生的心理问题引起的。因此,在课堂环境中对学生情感的识别和分析不仅可以帮助教师更好地调整课程教学,还可以帮助及时检测学生是否出现心理问题,并为有心理问题的学生提供及时的心理咨询和其他治疗,以促进学生身心的全面发展。本文基于循环神经网络等相关网络实现了对情感数据的预测,并最终使用情感特征值的定量算法计算情感强度,为系统执行自适应调整提供了数据库。

        通过摄像头实时获取课堂上学生动态,然后通过图像处理、机器学习、深度学习等技术提取特征,对情感进行分类,并及时反馈给教师学生当前的情感状态。教师根据学生当前的情感状态做出相应的调整。当学生情绪低落时,调整教学进度,激活课堂氛围,提高学生的学习动机。当学生普遍情绪低落时,教师会调整教学计划以提高学生的学习热情和效率;当学生普遍情绪高涨时,可以加快教学进度,进一步提高课程的教学效率。
        卷积神经网络是一种特殊的前馈神经网络,其结构中包含大量的神经元,这些神经元带有权重和偏置。它使用局部连接来避免全连接带来的冗余数据问题。在卷积神经网络中,其局部连接可以有效地减少网络中的参数数量,这可以减少模型对大量训练数据的依赖。简单来说,对于二维图像数据,彩色图像默认输入到神经网络中,然后将彩色图像的大小设置为标准数据格式:深度×高度×宽度。多任务卷积神经网络(MTCNN)为面部检测提供了一个多任务级联框架,其特点是同时执行面部检测和关键点定位两个步骤。当给定任意图像时,MTCNN将其缩放到不同尺度,形成一个图像金字塔以实现尺度不变性。

        m是隐藏层中的神经元数量,n是可见层中的神经元数量,Wmn​是它们之间的权重矩阵,v=[v1​,v2​,…,vn​]是可见层的状态,h=[h1​,h2​,…,hm​]是隐藏层的状态。例如,如果我们假设可见层中有n个单元,隐藏层中有m个单元,那么当可见单元和隐藏单元的值都是0或1时,可见层中节点与隐藏层中节点之间的能量函数可以表示如下。

        在公式中,vi​ 代表可见层第i个单元的状态,hj​ 代表隐藏层第j个单元的状态,wij​ 代表vi​和hj​之间的连接权重,ai​和bj​代表vi​和hj​的偏置值。

        深度神经网络(DNN)也是一种神经网络,但它有多层的感知器和多个隐藏层,并由一系列堆叠并逐层训练的玻尔兹曼机(RBM)组成。较低层代表数据特征的原始信息,而较高层代表数据的属性类别,因此其学习过程从较低层到较高层进行。在学习过程中,较高层将持续获取深层抽象特征,这是深度学习数据的基本特征。根据上述研究现状,尽管研究人员已经提出了许多用于图片的特征提取方法和识别分类方法,但如果我们想要实现一个高精度、实时的表情识别系统,仍有一些问题需要解决:一是如何实时进行多人面部检测的问题;二是自然条件下一些外部因素和面部之间的相似性可能会影响准确率。

        

        1976年,保罗·埃克曼创建了面部动作编码系统(FACS),该系统根据面部不同肌肉的解剖特征,将面部划分为独立的和相关的动作单元。FACS提供了对运动单位和表情组合的详细分类和阐述,这已成为后续研究的主要理论基础,许多经典算法或表情数据库都基于FACS。课堂表情状态类别应表明学习者是否对内容感兴趣,是否同意教师的教学风格,以及他们是否适应教授知识的节奏。教师可以利用这一点来调整内容和教学过程和提供及时的情感补偿。教员可以使用这个来评估教学质量,反思教学活动,并做出改变。由于课堂表达的重点和应用场景不同,它们既有相同之处也有不同之处,与常见的表达不同。

   离散情绪描述模型将情绪描述成离散类别,如快乐、愤怒和悲伤。美国心理学家埃克曼提出了6种基本的人类情绪:快乐、愤怒、惊讶、悲伤、厌恶和恐惧。中国科学院自动化研究所的中国情感语料库(CASIA)也基本上遵循这六个基本情绪类别,除了根据语料库数据,厌恶被中性取代。当前的数据集涵盖了广泛的人类情绪以及传统中学课堂中的实际情感表现,最终识别出八个情绪类别:专注、困惑、疲倦、无聊、退缩、沉默、紧张和愉快。数据集中每个语音样本的情绪由三个人共同标记,样本的最终情绪标签是通过少数规则原则确定的。数据集中每个情绪类别的样本数量如图1所示。数据库包含三种标签:情感学习行为标签、离散情感标签和维度情感标签(二维(唤醒-警觉)情感),使用特定情感词标记的受试者,标记的学习行为和离散学习表达。记录的视频使用离散学习情感标签(在线学习中的常见情绪:困惑、专注、分心、疲劳、快乐和无聊)进行标记,实验者帮助受试者检查视频并提取与学术情绪相关的情绪片段。确保图像序列的完整性、相似情感注释的一致性,并对不符合条件的图像重新标记。通过结合之前的文章并与最新研究比较,文章最终识别出8种课堂识别情绪,包括集中、困惑、疲惫、无聊、分心、沉默、紧张和愉悦。

        

     

        由于人类面部表情的灵活性,表情的变化是非刚性的,并且考虑到实时检测多个目标的要求,本研究将在实施人脸检测的部分中使用2016年提出的多任务卷积神经网络(MTCNN)。它具有非常好的实验和应用效果,MTCNN使用三种不同深度的网络类型来实现人脸检测,其级联结构+ CNN+ 边框方法可以实现实时人脸检测,这可以更好地满足课堂场景中多重人脸检测的任务。捕获的视频被输入到一个多任务卷积神经网络(MTCNN),该网络实时检测视频中获得的面孔,并定位面孔的关键部位:眼睛、鼻子和嘴巴。该模型主要使用三个级联网络P-Net、R-Net和O-Net,通过逐步微调来更准确地检测和定位面孔。

        原始面孔图像由于不同的拍摄条件而存在姿态和比例差异的问题。几何归一化包括面孔校正和比例缩放,可以纠正角度偏移的面孔并将不同比例的面孔缩放到统一的比例,以便后续的数据集构建和使用。面孔校正基于原始面孔姿态与标准面孔姿态之间的角度差异,通过坐标旋转将原始图像校正到标准面孔姿态,以确保面孔方向的一致性。通过特征点检测获取拦截面孔图像左右眼睛的中心坐标,计算连接两个眼睛中心坐标线与水平方向之间的角度,以坐标旋转中心旋转原始图像,获得正射图像。

        原始面孔图像由于拍摄地点和个体差异,通常具有不同的面孔大小和比例。通过尺度归一化,原始图像中的面孔被缩放到统一的标准,以减少甚至消除噪声干扰,使后续表情识别算法评估的准确性更加可靠。尺度归一化包括校正面孔图像的裁剪和缩放。校正面孔图像的特征点根据之前的(4)计算得出,即两眼之间的距离d,连接两眼线的中心作为原点,距离d的区域左右各裁剪一部分,距离d和1.5d的区域上下各裁剪一部分,以获得标准的面孔矩形区域。截获的标准面孔区域通过双线性插值转换为统一大小,以实现尺度上的归一化。本文实现了基于循环神经网络等相关网络的尺寸情感数据预测,并最终使用情感特征值的定量算法来计算情感强度,为系统进行自适应调整提供了数据库。

四、班级情感识别模型设计

        为了实现更深的网络以提取更深的特征,同时减少网络参数并提高计算效率,残差单元采用了瓶颈架构。在开始和结束时使用A1×1卷积核,在中间只使用3×3卷积核。残差单元中的信息传输包括两种类型的映射,即重残差映射和恒定映射。由卷积和激活操作生成的映射称为残差映射;同时,它允许直接通过跳跃连接的形式在残差单元之间传递信息,而这种直接连接生成的映射称为恒定映射,它直接用作下一个残差单元的输入,并从顶层传播到底层。在传统的神经网络中,当信息在卷积层和全连接层传递时,一些信息会丢失。残差单元之间的信息传输可以表示为以下方程。

        

        xl​ 表示恒定映射,f表示残差映射,wl​ 表示卷积核参数。从这个方程中,任何层的输出都可以由比它浅的任何层的输出和两层之间残差的和来表示。输入图像通过深度残差网络传递,最终输出作为整体图像特征的特征表示 F∈RW×H×C 获得。

        对于训练集 (xi​,yi​)=1,其中 xi​ 表示情感图像样本,yi​∈{1,2,…,n} 如对应于样本的情感标签,N表示训练集中的图像样本数量,k表示情感类别的数量。对于每个情感图像样本,整体特征,即深度卷积神经网络最后一个卷积层的输出,是 F∈RW×H×C。对于每个通道的特征图,包含在位置中的情感信息越丰富,即该位置表达情感越强烈,该位置在特征图中的值就越大。然后使用图像级别的情感标签生成情感激活图。

                情感识别算法的过程主要分为三个步骤:人脸检测、特征提取和情感识别。首先需要预处理原始图像,预处理包括对原始图像进行一些数字图像处理操作以及人脸检测操作。在人脸检测过程中,会对原始图像进行直方图均衡等数字图像处理操作,以使人脸更容易被检测和提取。由于现有的情感识别图像质量高,人脸检测是预处理过程最重要的部分,因此与情感识别相关的文献大多使用人脸检测作为预处理。接下来是特征提取过程,通过特征提取方法提取获取到的面孔,以表征当前的面部表情。最后,进行情感分类,通过特征提取算法提取的情感特征由现有的分类方法进行分类,以给出输入面孔图像的相应情绪类别标签。与传统的情感识别过程相比,对于特定的课堂环境,首先需要通过摄像头获取课堂教学过程的实时视频,使用OpenCV等工具获取获取到的实时视频的每一帧作为原始图像,然后进行传统的情感识别过程以获得输入面孔图像的相应情绪类别标签。有必要分析一段时间内识别的课堂学生的情感。最后,我们需要分析一段时间内识别的课堂学生的情感,并及时向教师反馈,帮助教师调整教学策略。本文设计的课堂学生情感识别算法如图2所示。      

        近年来,越来越多的研究人员开始将深度学习技术与视觉情感分析相结合。深度学习模型的性能在很大程度上由深度网络的结构决定,因此,通常会根据不同的任务设计并采用具有不同结构的深度学习模型。在本节中,介绍了经典深度学习模型,特别关注卷积神经网络,它在视觉情感分析任务中被广泛使用。它使用的部分连接方法可以有效避免由于全连接引起的冗余数据问题。而在卷积神经网络中,它的局部连接方法可以有效减少网络的参数数量,这可以减少模型对大量训练数据的依赖。

        视觉特征提取主要使用计算机视觉相关技术和数字图像处理相关技术,根据人类的心理和生理特征,从图像和视频数据中提取与人类情感和情绪密切相关的视觉特征。根据提取特征的水平,特征可以分为三类:底层特征、中层特征和顶层特征。传统机器学习方法在处理原始数据时更多地依赖于手动设计和提取特征,这使得传统机器学习算法有很大的局限性。与传统机器学习算法相比,深度学习能够从大规模数据中自动学习出健壮的特征,摒弃复杂的特征工程,并且同时,深度学习技术具有强大的领域适应性和模型泛化能力。由于互联网上可用的海量数据和计算机硬件的发展,深度学习技术在各个领域得到了广泛应用。

        

        本节重点介绍一种定性方法来证明标注报告员标注结果的可靠性,而且与离散情绪模型相比,唤醒-情感情绪模型可以更好地识别学生在学习过程中的情绪。如图3所示,唤醒-情感空间中八个情绪类别的分布表明(1)单一情绪(例如,愉快)可以导致多个唤醒-情感值。这表明每个情绪类别可能具有不同的唤醒-情感分布,这意味着传统的离散情绪类别可能无法准确描述一个人的内心情绪。(2) 情感之间存在重叠,这表明不同的情绪类别可能具有相似的唤醒-价值分布。例如,一些“专注”和“愉快”的图像的唤醒、价值值非常接近。这表明每个人对语言特征的理解不同。在描述方面,人类对情感的分类标记的一致性相当差。可以看出,从许多清晰的话语中选择一个人的情感并不容易,因为有些情绪标签之间或情绪之间的关系之间存在细微差别。

        为了为数据库(SHZ-LSD)上的自动情感分类提供一个基准,本文验证了基于卷积神经网络和循环神经网络数据库内容的识别,而情感识别的最佳模型被用于自适应学习系统中构建学生模型的情感识别模块。实验分为离散情感的情感识别和二维唤醒-价值的情绪识别。离散情感识别使用卷积神经网络,在原始图像数据上进行人脸裁剪,以提高模型的泛化能力,使用数据增强,并使用泄漏型ELU激活函数进行实验以获得最佳模型;与离散情感相比,尺寸情感数据不仅可以反映数据的空间信息,还可以描述数据的时空信息。为此,本文实现了基于循环神经网络和其他相关网络的尺寸情感数据预测,并最终使用情感特征值的定量算法来计算情感强度,这为系统执行自适应调整提供了数据库。

五、班级情感识别模型性能测试结果

        在本章中,通过FC筛选了IS10和IS13提取的全局特征,以更好地融合特征,实验结果表明,与使用FC筛选的全局特征相比,IS10和IS13提取的全局特征(IS10+IS13)的组合特征效果最佳。此外,还提取了使用IS10和IS13以及使用1D-CNN筛选的全局特征,

        并且实验结果表明,与MFCC相比,结合时间特征提取的IS10和IS13的组合特征(IS10IId+IS13lld)效果更好。因此,FC中最后一个密集层输出(IS10+IS13)被用作全局最优特征,而1D-CNN中最后一个密集层输出(IS10Ild+IS131ld)被用作时间最优特征。为了减少全局特征和时间特征之间的相关性,使用了CoreNet网络来融合过滤后的全局最优特征和时间最优特征,以获得融合特征,这些特征在FC上进行训练,结果显示基于CoreNet的融合特征结果是最佳的,从而证明了该方法的可行性。人工智能在教育中的应用之一是实时监控诸如学生学习表达和学习姿势等宝贵信息,关注每个学生的情绪状态。,对反馈进行相应的调整,教师根据具体情况调整课堂节奏。课堂效率将显著提高。

        在这项研究中,选取了100个人的单ID照片作为原始样本,并构建了一个小样本数据集。因为ID照片背景相同,可以使得图像中的面孔处于相同的角度,这可以消除不同图像背景的影响,避免面部皮肤颜色的影响等。基于此,进行了数据增强技术,如镜像变换、多区域裁剪、高斯噪声、对称扩展和位平面方法,以扩大样本数据库[22]。为了实现表情识别,我们使用对抗生成网络来扩展样本,从表情特征样本中提取表情,并使用卷积神经网络模型将它们“贴”到单个面孔图像上,并训练它们生成具有不同表情的面孔图像。损失测试如图4所示,随着迭代次数的增加,损失值减少并趋于平稳。

        为了进一步验证本文设计的代表性区域损失函数对模型识别的影响,我们在RAF-DB中加入了特征图像的MTCNN(没有强化学习)进行了测试。在RAF-DB测试集上,没有强化学习的MTCNN的准确率为76.5%,与图5中的预训练模型相比有所提高。蓝色曲线代表没有强化学习的MTCNN模型的测试准确率,它在拟合部分几乎与ResNet18和VGG16的准确率曲线重叠,表明没有强化学习的MTCNN模型具有与两个没有强化学习的预训练模型相同的识别效果。没有强化学习的MTCNN模型与两个预训练模型的识别结果之间的差异很小。

        带有强化学习的MTCNN模型在相同的训练参数下具有更快的拟合速度,并在第15轮实现了拟合,而未带强化学习的模型在测试集中出现了振荡、拟合速度慢以及相对较低的准确率[23]。因此,强化学习可以有效提高MTCNN模型的性能,并对MTCNN模型的识别有改善效果。

        本文提出的方法在三个数据集Twitter I、Twitter II和Emotion ROI上进行了评估,以展示其有效性。这三个数据集使用随机划分被分为80%的训练集和20%的测试集。提出的方法在Twitter I和Twitter II上分别达到了79.83%和78.在Twitter I和Twitter II数据集上,分别获得了25%的分类准确率,这比基于中间语义表示的传统视觉情感分析方法GCH和Sent bank要好[7]。基于深度学习的视觉情感分析方法在性能方面优于传统视觉情感分析方法。本文提出的方法的分类结果在两个数据集上的比较方法中都有所提高。

        具有最佳比较结果的COIS模型在两个数据集上分别提高了分类准确率0.93%和1.42%。测试方法和五种比较方法在元分类器情感图像数据集Emotion ROI上的分类结果以准确率进行评估,准确率比较如图6所示。        

        所提出的方法在多类别情感图像数据集Emotion ROI上实现了49.34%的分类准确率,比传统的视觉情感分析方法GCH和基于中间语义表示的视觉情感分析方法Sent bank更准确。DA-MLCNN的分类准确率分别比Deep-SentiBank和VGGNet-16高出6.81%,比PCNN和COIS模型高出1.78%,比PCNN和COIS模型高出1.21%。通过比较各种方法在多类别化数据集上的分类结果,可以显示本文提出的DA-MLCNN方法也可以适应视觉情感的多类别化任务。在二分分类器和元分类器情感图像数据集上的综合分类性能表明,所提出的方法可以学习到更具辨别力的特征。视觉特征从而提高视觉情感分析。

        通过尺度归一化,原始图像中的面部被缩放到统一的标准,以减少甚至消除噪声干扰,这使得后续表达识别算法的评估准确性更加可靠。首先,采样并分析一个类别作为课堂A。通过运行程序分析课堂A。X轴代表参数的值,相应的Y轴代表相应的后验概率;如果后验概率较大,则参数u和o是真实值的概率将会更大。在这样的图中,从后验中获取更合理的值是直观的。还可以看出,左图中的参数曲线更平滑,右图看起来像白噪声,这意味着混合程度很好。并且每个变量的最大后验估计,即左手分布的峰值,非常接近真实参数。如图7所示,参数μ和o没有任何相关性,意味着这两个参数彼此独立,不会线性相关。最后,运行最大后验密度(HPD)区间。HPD区间是包含一定比例概率密度的最小区间,通常用于描述参数的后验分布的离散性。

        在进行统计推断时,通常受到各种条件的限制,无法仅依赖样本的大小和复杂性来确定统计推断的意义。单独计算的平均值容易受到样本特征、样本抽取方式以及其他因素的影响,尤其是当样本量有限时,这使得进行合理的推断统计变得更加困难。使用贝叶斯概率模型进行统计分析,在PyMC3概率模型的框架下,通过随机抽样估计参数的后验分布,然后后验分布中最高概率值被用作参数的估计器,样本越多,后验分布越收敛,得到的估计就越接近实际情况。

六、结论

        在本文中,我们借助多任务卷积神经网络(MTCNN)执行人脸检测和图像分割,选择具有更好特征形态的样本构建标准数据库,并进一步改进和构建基于课堂的表情分类标准。提出了一种结合整体和局部图像特征的视觉运动分析方法。该方法设计了一个多尺度全卷积神经网络,用于检测图像的显著区域并提取显著区域的特征,同时仅使用图像级别的情绪标签生成情感图像的类激活映射,最后生成情感激活。图像的n张图,并通过叠加多个情感类别的类激活映射来提取情感区域的特征。根据实验数据的特点设计了合适的参数,并训练了构建的数据集。经过测试和分析,结果表明,在学生课堂面部表情数据集上,构建的任务卷积神经网络模型表现良好,使用测试集的识别率为91%,这表明该方法在科学上是可行的,并且可以减少对训练样本量的依赖,减轻收集工作量,缓解数据存储的压力。然而,由于本文构建的课堂情感数据集样本量较小,情感标签具有代表性但不完整,无法完全表征本文设计的模型的识别效果。为了在课堂环境中构建情感数据集,未来的工作、其他情感类别,甚至复合情感类别都可以添加进来,以进一步扩大数据集的样本量。增加标注者的数量以进一步提高数据集图片标签的准确性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值