论文笔记：Real-time emotion recognition for gaming using deep convolutional network features

本文链接：https://blog.csdn.net/anxiaoxi45/article/details/38866265

文章：Real-time emotion recognition for gaming using deep convolutional network features

来源：arXiv:1408.3750v1 [cs.CV] 16 Aug 2014

源码：开放，https://github.com/Zebreu/ConvolutionalEmotion

论文目的：对 deep convolutional network features应用的探索，实现了实时的表情识别。

在深度卷积网络对图片分类取得了目前最高的准确率后，它在视觉相关领域的应用开始流行起来。在目标分类任务中训练好的特征同样可以无须进一步的训练直接应用在其他的任务中，例如，照片和图画风格的分类。也就是说这些特征可以泛化到一般性的视觉系统中。这篇文章的目的就是探讨这些特征是否能在表情识别中表现良好。

实现方法：为了从每张图片中提取特征，用卷积网络对ILSVRC 2012的120万张图片进行训练。这一步直接使用了 Donahue的Python代码（ https://github.com/UCB-ICSI-Vision-Group/decaf-release/），所有的参数也是直接下载使用的（ http://www.eecs.berkeley.edu/˜ jiayq/decaf pretrained/ ）。这个网络模型共7层（5个卷积层，后两个全连接层）外加一个最后的逻辑回归层。抽取了第五（9126维）和第六层（4096维）的特征。

使用CK+的数据集来训练的，数据集中既有彩色图也有灰度图，在送入网络前对所有图片进行了灰度化。脸部检测及定位作为预处理过程使用了Viola-Jones用OpenCV实现的detector。在结果分析时忽略了这一部分带来的影响。

使用SVM对从静态图片中提取的特征进行分类，用了LIBLINEAR and LIBSVM。在实现SVM的多分类时使用比较了“one-versus-one” and “one-versus-all”两种策略。为了保持一致，使用的是“leave-one-participant-out”方案。由于没有验证集来选择参数，给出了在不同SVM参数下的性能。

为了在视频游戏中达到实时的表情识别，开发了利用网络摄像头的多线程程序。

在程序的主线程中使用opencv的库来扑捉视频流，并且检测人脸，当检测到人脸则使用第二个线程在人脸部位的灰度图上提取特征并进行分类。最后把分类结果送入主线程，主线程中保留最近检测到的5个表情。

实验结果：作者实验表明one-versus-all效果更好些。利用第五层的特征要比第六层的结果好5%。SVM核函数使用径向基函数和多项式函数的结果都要比线性函数差，它们对参数的选择更为敏感，训练时间也更长。当去除人脸检测部分，直接把整幅图片送入卷积网络时，得到的准确率大大降低了，只有77%。不使用灰度化是时性能也略有下降。

详细内容参考原文。