论文:《Softmax regression based deep sparse autoencoder network for facial emotion recognition in human-robot interaction》
这篇论文发表在Information Sciences 428 (2018) 49–61,主要作者是Luefeng Chen, Mengtian Zhou, Wanjuan Su,针对的任务是表情识别。
以往做表情识别的方法主要分为传统方法和结合深度神经网络的方法:
(1)传统的人脸特征提取算法:Gabor小波变换,模型法和光流法。
这些方法受到许多限制,如面部姿势多样性和可变性,面部结构的个体差异和肤色水平,计算机性能受训练速度和外部环境(例如光线,场地等等)的影响。
(2)使用DNN识别面部表情:Xie等人提出了一种减少特征冗余的卷积神经网络(FRR-CNN)。 M.Z.乌丁等人将局部方向位置模式应用于特征提取过程,最后将所提出的特征与DBN应用于表情识别。 Kim等人训练了多个深度CNN作为决策器,并将他们的决定结合起来以获得可靠的面部表情识别。
DNN是一种有效的面部表情识别方法,但传统的神经网络算法总是容易在训练过程中引起局部最大和梯度扩散问题,导致识别效果不佳。
表情识别的难点有哪些,该论文解决了哪一个难点,怎么解决的
正如我们看到的,传统的用深度神经网络进行表情识别的方法,存在学习效率和计算复杂度问题。而且在训练过程中还会出现局部极值和梯度扩散问题,从而导致识别效果变差。
这篇论文为解决这些问题,采用了基于Softmax回归的深度稀疏自动编码器网络(SRDSAN)模型,去解决这些问题。自动编码器能够重建数据,以便更好地表示数据,从而提高数据学习的效率。同时,稀疏适用于自动编码器,这可以降低算法的计算复杂度。 因此,深度稀疏自编码器网络(DSAN)被用于学习面部情绪特征,并且利用隐藏单元的稀疏性来支持学习高级结构。 最后,Softmax回归(SR)用于分类表达特征。除此之外,这篇论文中用逐层贪婪预训练来初始化权值,用BP算法去微调整个SRDSAN模型的权重以实现全局最优,克服了在识别面部表情时出现的局部极值和梯度扩散问题。
评价标准及该论文的性能
为了证明所提出的方法的有效性,该论文在情感识别系统中进行了实验,并且在JAFFE数据库和Extended CohnKanade(CK +)数据库上进行了实验。 实验结果表明,所提出的SRDSAN情感识别平均准确度是最高的。在情感识别实验结果中(训练数据集与测试数据集相同),JAFFE数据集上的平均准确率为98.59%,CK +数据集上的为100.00%。在训练数据集和测试数据不同的实验中,JAFFE数据集上的平均准确率为89.12%,CK +数据集上的平均准确率为89.03%。
本文进行表情识别的过程
1). 感兴趣区域裁剪,并规范图像。
2).通过逐层贪婪预训练获得初始权值矩阵。
3).获取网络输出。
4).训练SR来估计参数。
5).最小化成本函数。
6).微调整个SRDSAN的权重。
7).获得面部表情识别结果。
该论文的创新点、贡献
这篇论文主要创新点是提出了SRDSAN模型,其中稀疏表示和DNN的融合用于鲁棒的面部情感识别,并且通过引入稀疏性,特征提取器能够学习高级结构,SR用于面部情感分类以处理面部图像的大型非线性结构。 此外,采用BP算法对整个SRDSAN的权值进行微调,不仅可以使整个深度学习网络更加鲁棒,增强面部情感识别性能,而且可以使学习速度更快,克服局部极值和梯度 扩散问题。
不足及改进
不足之处在于训练时间比其他模型训练时间长得多。作者后续会做的工作可能会针对加速梯度下降、加速优化和提高准确率方面。如果我改进模型,我将使用一些方法来加速梯度下降,减少训练时间,如Mini-batch梯度下降法,Momentum梯度下降法等,并且可能会增加深度结构来加速优化过程。