通过训练语音情绪识别数据集建立基于深度学习的语音情绪识别识别 neutral`, `calm`, `happy`, `sad`, `angry`, `fearful`, `disgusted`,-CSDN博客

本文链接：https://blog.csdn.net/2401_88440984/article/details/147727724

基于深度学习的语音情绪识别基于深度学习的语音情绪识别

文章目录

以下文字及代码仅供参考。
有源码和数据集和运行结果(包括论文，ppt)

能识别出sad,happy,等7种情绪 neutral, calm, happy, sad, angry, fearful, disgusted, surprised

构建一个基于深度学习的语音情绪识别系统是一个涉及信号处理、特征提取、模型训练和评估的复杂过程

1. 环境配置

首先确保安装了必要的库：

pip install numpy pandas matplotlib seaborn librosa tensorflow keras

在这里插入图片描述

2. 数据集准备

我们使用RAVDESS（The Ryerson Audio-Visual Database of Emotional Speech and Song）数据集，它包含7种基本情绪：neutral, calm, happy, sad, angry, fearful, disgusted, surprised。

数据集目录结构

data/
    actor_01/
        03-01-01-01-01-01-01.wav
        ...
    actor_02/
        ...

3. 特征提取

我们将使用MFCC（梅尔频率倒谱系数）作为音频特征。

import librosa
import numpy as np

def extract_features(file_path, mfcc=True, chroma=True, mel=True):
    with open(file_path, 'rb') as f:
        X, sample_rate = librosa.load(f, sr=None)
    if chroma:
        stft = np.abs(librosa.stft(X))
    result = np.array([])
    if mfcc:
        mfccs = np.mean(librosa.feature.mfcc(y=X, sr=sample_rate, n_mfcc=40).T, axis=0)
        result = np.hstack((result, mfccs))
    if chroma:
        chroma = np.mean(librosa.feature.chroma_stft(S=stft, sr=sample_rate).T, axis=0)
        result = np.hstack((result, chroma))
    if mel:
        mel = np.mean(librosa.feature.melspectrogram(y=X, sr=sample_rate).T, axis=0)
        result = np.hstack((result, mel))
    return result

4. 模型定义

我们使用Keras来定义一个简单的深度神经网络模型。

from keras.models import Sequential
from keras.layers import Dense, Dropout
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
import os
import numpy as np
import pandas as pd

# 加载数据并提取特征
features = []
labels = []

for file in os.listdir('data'):
    if file.endswith('.wav'):
        emotion = file.split('-')[2]  # 根据文件名提取情绪标签
        data = extract_features(os.path.join('data', file))
        features.append(data)
        labels.append(emotion)

# 转换为numpy数组
X = np.array(features)
y = pd.DataFrame(labels, columns=['emotion'])

# 编码标签
le = LabelEncoder()
y = le.fit_transform(y['emotion'])

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 定义模型
model = Sequential()
model.add(Dense(256, activation='relu', input_shape=(X_train.shape[1],)))
model.add(Dropout(0.5))
model.add(Dense(128, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(len(le.classes_), activation='softmax'))

model.compile(loss='sparse_categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

# 训练模型
model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=100, batch_size=64)

# 评估模型
loss, acc = model.evaluate(X_test, y_test)
print(f'Test Accuracy: {acc}')

5. 运行结果

运行上述代码后，你将得到模型在测试集上的准确率。此外，你可以绘制混淆矩阵以更直观地查看模型性能。

from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# 预测
y_pred = model.predict_classes(X_test)
cm = confusion_matrix(y_test, y_pred)

# 绘制混淆矩阵
plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=le.classes_, yticklabels=le.classes_)
plt.xlabel('Predicted')
plt.ylabel('True')
plt.show()

6. 推理代码

使用训练好的模型进行推理：

def predict_emotion(file_path):
    feature = extract_features(file_path)
    feature = feature.reshape(1, -1)
    prediction = model.predict(feature)
    predicted_label = le.inverse_transform([np.argmax(prediction)])
    return predicted_label[0]

# 示例
file_path = 'path/to/audio/file.wav'
predicted_emotion = predict_emotion(file_path)
print(f'Predicted Emotion: {predicted_emotion}')