语音情感识别(Speech Emotion Recognition, SER)是通过分析语音信号中的声学特征,自动识别说话人情感状态的技术。它结合了信号处理、机器学习和心理学,在人机交互、心理健康评估、智能客服等领域有广泛应用。
核心技术流程
-
数据采集与预处理
-
数据来源:情感语音数据集(如RAVDESS、IEMOCAP),通常标注为快乐、悲伤、愤怒、中性等情感标签。
-
预处理:降噪、分帧、归一化等,提取有效语音段。
-
-
特征提取
-
传统声学特征:
-
韵律特征:基频(Pitch)、能量、语速。
-
频谱特征:MFCC(梅尔频率倒谱系数)、Formants(共振峰)。
-
音质特征:抖动(Jitter)、颤音(Shimmerÿ
-
-