基于FCBF特征选择和粒子群优化的模糊神经网络视听情感识别翻译

最新推荐文章于 2021-02-15 20:27:27 发布

qq_41534566

最新推荐文章于 2021-02-15 20:27:27 发布

阅读量1k

点赞数

分类专栏：深度学习机器学习 python 程序员

本文链接：https://blog.csdn.net/qq_41534566/article/details/86024200

版权

本文介绍了基于FCBF特征选择和粒子群优化的模糊ARTMAP神经网络在视听情感识别中的应用。研究通过融合音频和视觉信息，利用FAMNN进行情感识别，并使用PSO优化参数，提高了识别率。实验结果表明，特征级和决策级融合提升了识别性能，特别是在音频系统中，识别率显著提升。最终，通过优化的FAMNN在Savee数据库上达到了98.25%的识别率。

摘要由CSDN通过智能技术生成

前言：

人类使用面部、言语和身体手势等多种方式来表达自己的情感。因此，使情感计算机和人机交互(Hci)更自然地和友好的。最后，计算机应该能够利用语音和视觉信息来理解人类的感受。本文利用模糊ARTMAP神经网络从音视频信息中识别情感。网络(FAMNN)音频和视觉系统融合在决策和特征级别。最后，利用粒子群优化算法确定了选择参数(α)的最优值、警戒参数(ρ)和学习率(β)。实验结果表明，特征级和决策级融合改善了单峰系统的性能PSO IMP 追踪识别率。采用粒子群优化的FAMNN进行特征级融合，对音频系统的识别率提高了57%左右，对音频系统的识别率提高了4.5%左右。没有视觉系统。利用优化后的FAMNN，对Savee数据库的最终情感识别率达到98.25%。

关键词：视听情感识别；粒子群优化，模糊ARTMAP神经网络

FAMNN：模糊ARTMAP神经网络

数据集：Savee数据库

优化算法：粒子群优化算法。

FCBF：快速相关滤波器(FCBF)

1. 介绍

与计算机相比，人类之间的交流更加自然。人机交互(HCI)系统的主要问题之一是隐式信息的传递.到让HCI变得更加自然和友好，计算机必须像人类一样享受理解人类情感状态的能力

近年来，情感识别已经发现了许多应用，例如用于检测压力和疼痛的医学紧急领域[15]，与机器人的交互[27，41]，计算机游戏[26]，以及开发。平人机界面，帮助弱者和老人[36]。

有许多情态，如脸，身体姿态和言语，人们用来表达他们的感情。这些模式的组合取决于它们发生的地点和主体本身；因此，有各种各样的组合模式[30]。心理学和语言学的一些研究证实了情感表现与特定的视听信号之间的关系[2，17]。

Mehrabian[33]指出，在任何面对面的交流中，基本上都有三个要素。视觉通道中的面部表情和言语清晰度是最重要的情感线索。 (分别为55%和38%)，词汇只占整体印象的7%。

有一些方法可以量化和测量情绪，例如离散类别和维度des。归属[40]。在这项工作中，我们使用了基本的离散情感类别，包括快乐、恐惧、悲伤、愤怒、惊讶、中立和厌恶，这些都植根于日常生活的语言中。此法 Ekman[16]的跨文化研究特别支持了这一观点。现有的对情绪自动识别的研究大多集中在对这些基本情感的识别上。这些sev 情感状态是常见的，并已被用于大多数以前的作品[5，7，14，21，30，31，37，38，46]。我们的方法是通用的，可以扩展到更多的情绪状态。使用Univer Sal情绪模型，容易识别情绪状态[49]。

文献中采用的两种主要融合方法是特征级融合和决策级融合。本文的目的是通过结合情绪相关的i来模拟人类对情绪的感知。来自面部表情和音频的信息。因此，我们使用不同的方法融合音频和面部表情信息。分类器类型对情绪识别率也有显著影响。通常不同的分类器有人工神经网络(ANS)、支持向量机(SVMS)、决策树、最近邻(KNN)、高斯混合模型(GMMS)、隐马尔可夫模型(HMM)等。和贝叶斯网络已经被用于情感识别。研究人员还提出了混合和多分类器方法[49]。这里，我们使用模糊自适应共振理论映射。 [9]作为分类器，采用粒子群优化算法(PSO)确定了选择参数(α)、警戒参数(ρ)和最优选择参数(ρ)的最优值。模糊ARTMAP神经网络的学习速率(β)。

本文的其余内容如下：第二节回顾了近年来在这一领域的研究进展。第三节介绍了我们解决这一问题的方法。在本节中，我们首先讨论Abou。在此工作中使用的Savee数据库，然后是如何提取音频和视频特征，以及特征约简和特征选择程序。另外，FAMNN也是自带的。作为分类器，本文提出了粒子温优化方法来优化FAMNN，提高分类精度。第四节为实验结果。在第五节，研究了粒子群优化的FAMNN算法对情感识别性能的影响.最后，在第六节中得出结论。

2.背景和相关工作

近年来，基于视听的情感识别方法引起了研究界的关注。在对Pantic和Rothkrantz的调查[39]中，只有四项研究的重点是视听影响识别。此后，利用音像信息进行情感识别一直是众多研究的课题。关于影响识别方法的最新调查音频、视觉和自发的表达属于曾等人。[49]。本文简要介绍了这一领域的一些主要工作。

De Silva和Pei chi[14]使用了一种基于规则的决策级别方法。语音和视觉系统的融合。在语音中，提取基音作为特征，