语音情绪识别系统的设计与实现

最新推荐文章于 2024-09-07 15:09:09 发布

程序源码老李

最新推荐文章于 2024-09-07 15:09:09 发布

阅读量867

点赞数 18

分类专栏：小程序 java 程序源码文章标签： sqlite 数据库

本文链接：https://blog.csdn.net/2301_79305643/article/details/140910337

版权

程序源码同时被 3 个专栏收录

200 篇文章 1 订阅

订阅专栏

小程序

181 篇文章 0 订阅

订阅专栏

java

160 篇文章 0 订阅

订阅专栏

摘要

在当今数字化社会中，语音情绪识别系统作为一种先进的技术，正在引起越来越多的关注。其意义与目的不仅仅局限于技术创新，更体现在社会和个人层面的多方面影响。

语音情绪识别系统的意义在于提升人机交互的效率与质量，随着智能语音助手和智能客服的普及，系统能够准确捕捉用户情绪，有助于更好地理解用户需求，提供个性化的服务，从而增强用户体验，提升用户满意度。

本文首先介绍了设计的背景与研究目的，其次介绍系统相关技术，重点叙述了系统功能分析以及详细设计，最后总结了系统的开发心得。

本论文的主要研究工作及取得的成果如下:

1.通过用户上传音频进行语音信号采集再对语音信号进行特征提取，例如频谱、音调、语速等，进行预处理，包括噪声降低、语音分段等。使用机器学习技术建立情感识别模型，在进行情感分类时支持进行多类别情感分类，例如愤怒、喜悦、悲伤等，提供准确的情感标签。

2、使用Django等软件开发技术开发系统后台,使用Pycharm开发工具构建程序工程，设计并成功开发出了一套基于Django的语音情绪识别系统。

关键词：Django；语音情绪识别；后台系统；Python

Abstract

In today's digital society, speech emotion recognition system, as an advanced technology, is attracting more and more attention. Its significance and purpose are not only limited to technological innovation, but also reflected in many aspects of social and individual levels.

The significance of voice emotion recognition system is to improve the efficiency and quality of human-computer interaction. With the popularity of intelligent voice assistant and intelligent customer service, the system can accurately capture user emotions, help better understand user needs, provide personalized services, and thus enhance user experience and improve user satisfaction.

This paper first introduces the design background and research purpose, then introduces the system related technology, focuses on the system function analysis and detailed design, and finally summarizes the development experience of the system.

The main research work and achievements of this paper are as follows:

1. Collect voice signals by uploading audio from users, then extract features of voice signals, such as spectrum, tone, speech speed, etc., and preprocess them, including noise reduction and speech segmentation. Machine learning technology is used to establish an emotion recognition model, which supports multi-category emotion classification, such as anger, joy, sadness, etc., and provides accurate emotion labels.

2. Used Django and other software development technologies to develop the system background, used Pycharm development tools to build program projects, designed and successfully developed a set of Django-based speech emotion recognition system.

Key words: Django; Speech emotion recognition; Background system; Python

目录

1 绪论

1.1 课题背景

目前语音数据一般有以下特点:

一，数据量增长迅猛:互联网的迅速发展，数据量正在以指数级增长，互联网公司每年都会产生大量的数据。以前没有并行存储计算的时候，这些数据要么丢弃掉，要么进行归档封存。

二，数据的多样性:我们传统意义上的数据可能会存储在数据库中的关系型数据，如用户信息，订单信息等。但目前数据格式上多种多样，特别是应用日志，很多都是以Json格式来进行存储。Json 格式数据中也会有List等等结构。所以数据结构的复杂程度也越来越高。

三，数据来源丰富:以前我们分析的数据基本都是存储在关系型数据库中。如Oracle或者Mysql.现在关系型数据库中的数据已经成为数据来源的一种方式。更多的数据来源于应用日志，打点数据。网站访问行为等数据。

基于以上三点，传统的关系型数据库已经没有办法来进行处理了。所以就迫切需要一种能够存储海量数据的分布式计算系统。Django便成为首选的技术解决方案。

1.2 课题研究的意义

语音情绪识别系统对于心理健康领域有着重要的意义，语音作为情绪的一种表达方式，能够反映个体的内心状态。通过分析语音中的情绪特征，系统可以帮助识别用户的情绪变化，提供情绪管理和心理支持，对于预防和干预心理健康问题具有积极作用。

本系统在于提升人机交互效率、促进心理健康、推动社会科学研究等方面。随着技术的不断进步和应用场景的不断拓展，相信这一领域将会迎来更加广阔的发展前景，为人类社会带来更多的益处与可能性。

1.3 系统实现的功能

本次设计任务是要设计一个基于Django的语音情绪识别系统的研究与实现，通过这个系统能够为用户提供更好的平台。

1.4 课题研究现状

国外研究现状：

许多国际顶尖会议和期刊，如ACL、EMNLP、COLING、IEEE Transactions on Affective Computing等，经常发表关于情感分析和情感识别系统的最新研究成果。研究者们通过深度学习、迁移学习、注意力机制等技术来提高情感识别系统的性能。

在商业和工业领域，大型互联网公司和人工智能初创企业积极应用情感分析技术，用于社交媒体情感监测、产品用户体验分析、在线广告效果评估等领域。

国外研究者经常发布用于情感分析研究的大规模标注数据集，并举办相关的挑战赛，例如SemEval（Semantic Evaluation）等，以推动情感识别系统的发展。

国内研究现状：

国内的高校和科研机构积极开展语言情绪识别系统的研究，论文发表在国内外的期刊和会议上，如《计算机学报》、《中文信息学报》等。

中国的互联网企业和人工智能公司也在情感分析领域开展了大量应用研究，将情感识别技术应用于舆情监控、智能客服、情感化推荐系统等方面。

国内也涌现出一些针对中文情感分析的数据集和挑战赛，促进了相关技术的发展。

跨语言情感分析：针对多语言环境下的情感识别问题进行研究，特别是针对中文的情感分析系统的发展。多模态情感分析：结合文本、图像、音频等多模态数据进行情感分析，以更全面地理解用户的情感状态。情感演化分析：研究情感在时间和语境下的变化，探索情感演化的规律和趋势。总的来说，国内外在语言情绪识别系统的研究中都积极探索各种新的技术和方法，致力于提高情感识别系统的准确性和适用性，以满足不同领域的实际需求。随着人工智能技术的不断发展和应用，情感分析领域也将迎来更多的创新和突破。

2系统相关技术

本文以Python为开发语言，利用了当前先进的后台框架，以Pycharm为系统开发工具，MySQL为后台数据库，开发的一个基于Django的语音情绪识别系统的研究与实现。

2.1 Python语言介绍

基于Django的语音情绪识别系统的研究与实现在前台管理网页效果中主要采用的是Python语言开发，现在越来越多的软件公司都使用Python语言来开发web端的应用。因为就目前的市场上网页制作模块来说，Python语言包含的内容是相对而言比较丰富全面的，而且Python语言已经成为现在市场上最为常见的开发技术。我们都知道Python语言是一种开发技术，它的开发是跨平台的，Python语言可以在Windows操作系统上运行也可以在Linux系统上运行。

Python是一门面向对象的编程语言，不仅吸收了C++语言的各种优点，还摒弃了C++里难以理解的多继承、指针等概念，因此Python语言具有功能强大和简单易用两个特征。Python语言作为静态面向对象编程语言的代表，极好地实现了面向对象理论，允许程序员以优雅的思维方式进行复杂的编程。

Python具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点。Python可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等。

2.2 Mysql数据库介绍

MySQL 是一款安全、跨平台、高效的，并与 PHP、Python 等主流编程语言紧密结合的数据库系统。该数据库系统是由瑞典的 MySQL AB 公司开发、发布并支持，由 MySQL 的初始开发人员 David Axmark 和 Michael Monty Widenius 于 1995 年建立的。
MySQL 的象征符号是一只名为 Sakila 的海豚，代表着 MySQL 数据库的速度、能力、精确和优秀本质。

图2-1 MySQL图标

本系统采用的数据库是MySQL数据库，其目的是用来存储利用识别爬取到的大量语音数据数据集和数据处理之后的分析结果。

2.3 SVM算法

SVM （support vector machines）即支持向量机。它是一种二分类模型，它将实例的特征向量映射为空间中的一些点，SVM 的目的就是想要画出一条线，以 “最好地” 区分这两类点，以至如果以后有了新的点，这条线也能做出很好的分类。SVM 适合中小型数据样本、非线性、高维的分类问题。 SVM 最早是由 Vladimir N. Vapnik 和 Alexey Ya. Chervonenkis 在1963年提出，目前的版本（soft margin）是由 Corinna Cortes 和 Vapnik 在1993年提出，并在1995年发表。深度学习出现之前，SVM 被认为机器学习中近十几年来最成功，表现最好的算法。

分类学习的基本思想就是基于训练集D在样本空间中找到一个划分超平面，将不同的样本分开。如下图所示，一共有五个超平面可以把训练集分开，如何去选择一个合适的超平面至关重要。在下图中我们称红色的超平面为最好的超平面，因为这个红色的划分超平面所产生的分类结果是最鲁棒性的，对未见示例的泛化能力最强。

2.4 B/S架构

B/S的系统是通过能上网的电脑就可以使用，它最大的优点是不需要安装专门的软件，首先浏览器向服务器发出请求，然后服务器处理请求把信息再返回给浏览器。不需要再次对数据进行存取与计算数据，只要负责显示数据来降低要求，如果说客户端像个“瘦子”，而服务器会越来越“胖”。B/S体系结构与C/S体系结构相比，最大的不同是：B/S体系的应用软件使用网络浏览器作为与用户交互的平台，而C/S则需要开发专用的应用程序。

当前MIS系统结构目前存在两种较为流行的结构:C/S和B/S两种。

C/S结构的系统：C/S结构就是客户机服务器结构，它可以法派任务到Client端和Server端来进行，充分利用两端硬件环境的优势，来降低系统的通讯的花费。客户端主要作用是处理人机交互，执行客户端应用程序，收集数据以及向服务器发送任务请求。服务器基本作用是执行后台程序，它主要对客户机的请求申请进行反馈，除此之外，它的作用还包括：数据服务预约储系统的共享管理、通讯管理、文件管理等等。

B/S结构的系统：这种网络结构简化了客户端，并把系统功能实现的中心集中到服务器上，在这种模式中，只需要一个浏览器就可以了。这种结构将很多的工作交于WEB服务器，只通过浏览器请求WEB服务，随后根据请求返回信息。

通常在网站网内部使用，采用C/S。而使用不仅限于内网的情况下使用B/S。考虑到本管理系统的一系列需求，所以，该系统开发使用B/S结构开发。

2.5 本章小结

本章主要分析了系统开发过程中使用到的技术点和框架，通过研究这些技术的原理后，在本设计中加以应用，包括用户语音平台信息识别技术，数据持久化存储技术，以及基于Django框架的语音情绪识别后台技术，同时本文还使用了较为流行的Echarts前端可视化技术。通过预研上述技术点并加以应用从而开发出基于Django的语音分析系统。

3 系统设计

3.1 系统设计流程

（1）明确目的

在设计招语音大情绪识别平台初期需要了解如何获取语音数据原始数据是非常基础也是关键的一步。要了解情绪识别平台期望达到什么样的运营效果，从而在标签体系构建时对数据深度、广度及时效性方面作出规划，确保底层设计科学合理。

（2）数据采集

只有建立在客观真实的数据基础上，大数据计算分析的结果才有效。在采集数据时，需要考虑多种维度，比如不同语音数据平台。

（3）数据清洗

就对于语音，可能存在非目标数据、无效数据及虚假数据，因而需要过滤原始数据，去除一些无用的信息以及脏数据，便于后续的处理。

（4）特征工程

特征工程能够将原始数据转化为特征，是一些转化与结构化的工作。在这个步骤中，需要剔除数据中的异常值并将数据标准化。

（5）数据计算

　在这一步我们将得到的语音数据网站数据存储到大情绪识别平台，通过开发SVM程序对原始数据进行计算，将不同维度的结果存储到Mysql中。

（6）数据展示

　分析结果可以通过大数据后台展示到前端界面，对于普通用户而言，只需要登录到该后台系统，就可以获取到语音数据网站分析后的计算结果。

3.2 系统平台架构

3.1.1 系统功能

通过前面的功能分析可以将基于Django的语音情绪识别分析平台的研究与实现的功能主要包括用户登录、识别分析、情绪识别等内容。

3.2可行性研究

通过对系统研究目标及内容的分析审察后，提出可行性方案，并对其进行论述。主要从技术可行性出发，再进一步分析经济可行性和操作可行性等方面。

3.2.1 经济可行性

开发系统所涉及到的资料，一般是在语音馆查阅，或是在网上进行查找收集。所需要的一些应用软件也都是在网上可以免费下载的，因此，开发成本是几乎为零。但是开发出来的系统，还是具有高效率，低成本，较高质量的。所以，从经济可行性的角度，该系统符合标准。

3.2.2 技术可行性

技术可行性是考虑在现有的技术条件下，能否顺利完成开发任务。以及判断现有的软硬件配置是否能满足开发的需求。而本系统采用的是Django开发框架，并非十分困难，所以在技术上是绝对可行的。此外，计算机硬件配置是完全符合发展的需要。

3.2.3 运行可行性

当前计算机信息化的知识已经十分普及了，现在的操作人员也都是对系统环境有很强的适应性，各类操作人员大都是有过培训补充的，因此完全不影响组织结构，所以在运行上也是可行的。

3.2.4 时间可行性

从时间上看，在大四的最后一个学期，在实习工作与完成毕设两件大事相交叉的时间里，结合之前学习的相关知识，并开发系统，时间上是有点紧，但是也不是完全没可能实现，通过这段时间的努力功能基本实现。

3.3 数据库设计

本系统采用模块化设计理念，面向对象的编程思想，实现系统各个模块的共功能，先将系统的总框架描绘出来，将功能模块嵌入框架中并描绘出流程图，逐步精确。

表3-1 用户信息表

列名	数据类型	长度	主外键
id	bigint	20	是
Username	varchar	0
pass	varchar	20	是
sex	varchar	200
phone	bigint	20	是
card	varchar	200
Email	varchar	200

表3-2 语音信息表字段

列名	数据类型	长度	主外键
id	bigint	20	是
Leibie	varchar	0
yinliang	varchar	20	是
Yingao	varchar	200
sulv	varchar	200

3.4 语音数据分析

本文所研究的情感语料对单个特定人共包括5类情感：愤怒、平静、悲伤、高兴、惊讶；对三个人组成的特定人群包括3类情感：愤怒、悲伤、平静。共有超过500句的情感语句，包括了陈述句、祈使句、疑问句等句子类型，以及各种声调组合及语句长度等情况。为方便情感的表达，不同的情感语音文本不完全相同。录音者就是本文的三位作者。录音软件为CoolEdit2000，语音的文件格式为单声道，16KHz采样，量化比特数为16。

为了检验所收集的语音情感的有效性，我们找了另外3位同学，随机播放所录制的情感语音，要求他们通过主观评判说出所播放语音的情感类别，实验结果如表1。根据听取结果剔除了一些语句，最后采用了的情感语句共480句。

表3-3 特征提取代码

import torch

import torch.utils.data.dataset as Dataset

import torch.utils.data.dataloader as DataLoader

import numpy as np

import pickle

import joblib

file_name = 'four_emotion/four_label_mfcc.pkl'

with open(file_name, 'rb') as file:

print(file_name)

iemocap_data = joblib.load(file)

def str_to_float(ensor):

narry_float = []

for i in np.array(ensor):

narry_float.append(float(i))

return narry_float

class IEMOCAP_Dataset(Dataset.Dataset):

#初始化，定义数据内容和标签

def __init__(self, data_Label):

self.Data = data_Label[0]

self.Label = data_Label[1]

#返回数据集大小

def __len__(self):

return len(self.Data)

#得到数据内容和标签

def __getitem__(self, index):

data = torch.Tensor(self.Data[index])

return data, self.Label[index]

def get_data(source_data):

data_set = []

data_label = []

for i in enumerate (source_data):

temp_x = i[1][0]

temp_x = str_to_float(temp_x)

if i[1][1] =='fru':

pass

else:

data_set.append(np.array(temp_x))

label_index_mapping = {'hap': 0, 'sad': 1 ,'ang':2,'neu': 3}

data_label.append(label_index_mapping[i[1][1]])

return data_set,data_label

def ge_dataset():

Data,Label = get_data(iemocap_data)

data_array = np.array(Data)

Label = np.array(Label)

return data_array,Label

经过特征的提取和分析，我们发现，“基音频率的均值”、“第一共振峰的均值”这两个特征具有最好的区分效果，“能量变化率的方差”、“能量变化率的变化率”、“基频最大值”等特征也具有一定的区分效果。

对单个特定人的愤怒、悲伤、惊讶、高兴、平静五种情感区分，采用“基音频率的均值”、“第一共振峰的均值”的两个特征具有最好的区分效果，识别正确率平均可达93.7%，其中愤怒和高兴两种情绪比较容易混淆。

对三个特定人组成的特定人群的愤怒、悲伤、平静三种情感区分，采用“基音频率的均值”、“第一共振峰的均值”以及“能量变化率的方差”的三个特征具有最好的区分效果，识别正确率平均可达94.4%。

3.4 本章小结

本章主要分析了基于Django的语音情绪识别系统开发过程中使用到的技术和具体的实现步骤，这其中主要介绍了SVM模型搭建流程，包括程序中的一些核心配置等，在获取到识别数据后，本章我们已完成数据的采集和分析工作，为后文的情绪识别可视化系统奠定了数据基础。

4 后台系统实现

本文设计的基于Django的语音数据信息分析系统的后台系统采用的是Django框架实现的，这是一种MVC模式的开发框架，通过在表现层接收前端传入的参数，再调用Service进行不同业务的处理，最后去操作数据库进行数据的CRUD，从而实现指定的功能。前端使用的是html展示,在数据持久层使用的是MySQL数据库。

4.1 开发环境与配置

4.1.1 开发环境

本系统设计基于 B/S 架构，其中服务器包括应用服务器和数据库服务器。这种架构模式，使用户只需要在有网络的地方即可通过浏览器访问，而不需要再安装客户端软件，交互性更强。基于Django的语音数据信息分析平台使用Pycharm 集成开发工具。本系统的主要开发环境以及开发工具如表 4-1 所示。

表4-1 系统开发环境和工具

项目	系统环境及版本
硬件环境	Windows 64 位操作系统
开发语言	Python
Web服务器	本地
数据库	MySql
开发工具	Pycharm
项目架构	Django

4.1.2 框架配置介绍

本系统使用集成开发工具 Pycharm进行开发，由于 Pycharm中本地配置详细资料有很多，不做详细赘述。

4.1.3 数据库的设计

整个系统的最重要的一部分就是对数据持久层的设计，因为整个系统的每个操作，包括注册登录，查询，展示其实都是对数据库的操作，因此如何设计一个健壮，扩展性强的数据库是非常必要的。

4.2 系统功能模块实现

4.2.1登录认证

当用户执行登陆操作时，后台会从前端传过来的参数中拿到用户名和密码，并查询数据库，通过findUserByName方法查询该用户的密码字段，再将查询的结果和前端传过来的密码参数字段进行比对，如果相同，则匹配成功用户直接跳转到登录成功后的欢迎界面；如果匹配失败则需提前前端继续输入正确的密码直到登录成功。用户登录具体流程如时序图如4-2所示。

一

图4-2登录认证流程图

语音数据分类分析系统的用户登录界面如下图所4-3所示：

图4-3用户登录界面

登陆成功后，系统会成功跳转至首页，在首页中，位于上方的横栏是对本系统的基本信息的描述和欢迎登录效果，另外登录用户的用户名也会显示在首页中，可直接表明用户已成功登录。左侧则是本系统的导航菜单，可折叠展示，较为方便，右方则为欢迎页效果。语音分类分析系统的首页界面如下图所4-4所示：

图4-4语音数据信息系统首页界面

4.2.2 语音数据上传识别功能

语音数据信息管理功能是对语音数据信息进行查询，删除等操作的功能集合，语音数据信息管理功能使用到了语音数据信息表t_yuyin, 语音数据信息表t_yuyin的主要数据字段，结构，类型及描述如下表4-2所示。

图4-6语音数据管理图

语音数据信息管理

功能流程功能图如图3-6所示：

图4-6语音数据信息管理功能流程图

通过“语音数据信息管理”按钮，进入语音数据信息界面，用户可以看到语音数据列表，例如：品牌、作者、总点击、总推荐、语音详情、语音时间的详细信息。通过此界面，用户可以对语音数据信息进行删除管理操作。

4.2.3 语音数据可视化看板功能

数据可视化模块就是对我们采集和计算的分析结果的展示。情绪识别模块的数据进行一个精美而又直接的展示，我们采用大屏的方式进行展示，展示数据结构分明，背景具有科技感，把相对复杂的、抽象的数据通过可视的、交互的方式进行展示，从而形象直观地表达数据蕴含的信息和规律。

语音数据分类看板界面如图4-7所示。

图4-7语音数据信息主界面

语音数据分类分析可视化看板的功能较为丰富，由图可知，用户在登录本系统后，可以很清楚的读懂目前市场上的语音行情，如什么品牌的语音数据最高，那个价格区间的语音数据最高等等，这对用户而言是十分关注的，因此如何开发出美观的可视化界面也是一项不可或缺的工作。本文使用了图形，表格，地图等各种方式联动数据，十分直观。将分析结果较为直观的展示给平台用户，使得用户能够简便的获取有效的信息。

4.3 本章小结

本章主要分析了基于Django的语音情绪识别系统的设计与实现系统开发过程中使用到的技术和具体的实现步骤，这其中主要介绍了语音数据Django分析平台的搭建环境和开发步骤，包括程序中的一些数据库配置等。前端页面采用的是html实现。

5 总结与心得体会

5.1 系统开发遇到的问题

由于语音情绪识别系统是由本人独立开发，因此在系统设计和业务逻辑方面更多地借鉴了目前市场上较为流行的框架和技术点，包括SVM技术，很多是不熟悉没接触过的，在开发过程中不断学习新知识。另外由于本人的时间和精力的原因，在系统开发过程中有很多地方可能并不能够完全尽如人意，还有许多需要补充的功能与模块。

5.2 总结与展望
为保证有足够的技术能力去开发本系统，首先本人对开发过程中所用到的工具和技术进行了认真地学习和研究，详细地钻研了基于SVM的语音情绪识别系统的研究以及 Django等软件开发技术等。
从基于Django的语音情绪识别的系统需求研究分析开始，到整体框架的设计以及各个详细功能的设计具体实现，最后到语音数据情绪识别基础架构和详细功能已经大致开发完毕，并将其部署在本地服务器当中运行，用户可以登录使用该系统进行情感信息的筛选，同时查询情绪的分类结果。本系统的开发与设计能够一定程度上解决用户面对错综复杂的情感信息难以辨别真伪等问题，让用户可以便携的查询结果，但由于本人的时间和精力的原因，本系统还有部分功能需要完善，如爬取更多语音数据网站的数据，更多维度去分析数据结果等，本人将会在后续完善这些工作。

5.3 心得体会

从语音数据大情绪识别平台需求分析开始，到整体框架的设计以及各个详细功能的设计具体实现，最后基于大数据平台的语音信息分析系统的基础架构和详细功能已经大致开发完毕，并将其部署在本地服务器当中运行，用户可以登录使用该系统进行语音信息的筛选，同时查询大数据的分析结果。

整个设计终于完成了，完成的好辛苦，好艰难，但还是顺利的完成了。我们付出了很多心血和汗水，但我认为我们得到的更多。如果没有同学们的互相帮助，这次课程设计就不会这么顺利，这种同舟共济的团队精神深深震撼了我，《礼记学记》上也有讲过：“独学而无友，则孤漏而寡闻”。同时有些同学积极的态度让我感到一丝惭愧，他们所体现出的坚持不懈的品质更令我折服。当然这次程序设计也让我看到了自己基础的薄弱。古人有诗云：“路漫漫其修远兮，吾将上下而求索”。从今天起我将不断继续求索，学习之路也好，人生之路也罢，总之我受益匪浅。

参考文献

[1]陶建华,陈俊杰,李永伟.语音情感识别综述[J].信号处理,2023,39(04):571-587.DOI:10.16798/j.issn.1003-0530.2023.04.001.

[2]耿磊.基于深度特征提取及处理的非特定人语音情感识别研究[D].河南工业大学,2023. DOI:10.27791/d.cnki.ghegy.2023.000304.

[3]李洋.基于卷积神经网络的终端语音情感识别方法研究[D].浙江大学,2023. DOI:10.27461/d.cnki.gzjdx.2023.000818.

[4]彭凯贝,孙小明,陈皓炜等.基于卷积神经网络的火车站语音情感识别方法[J].计算机仿真,2023,40(02):177-180+189.

[5]张家豪.语音情感识别的个体差异模型与方法[D].东华大学,2023. DOI:10.27012/d.cnki.gdhuu.2023.001418.

[6]王兰.基于注意力CRNN的语音情感识别研究[D].重庆邮电大学,2022. DOI:10.27675/d.cnki.gcydx.2022.000225.

[7]王鸣天.基于文本和声学特征的语音情感识别研究[D].山东大学,2022. DOI:10.27272/d.cnki.gshdu.2022.001740.

[8]高英宁.基于深度学习的语音情感识别研究[D].长江大学,2022. DOI:10.26981/d.cnki.gjhsc.2022.000178.

[9]王佳颖.基于深度学习的语音情感识别研究[D].哈尔滨理工大学,2022. DOI:10.27063/d.cnki.ghlgu.2022.000279.

[10]徐华南.基于深度学习的语音情感识别研究[D].南京信息工程大学,2021. DOI:10.27248/d.cnki.gnjqc.2021.000596.

[11]张梦宇.基于深度学习的语音情感识别研究[D].东北师范大学,2021. DOI:10.27011/d.cnki.gdbsu.2021.000209.