【音频处理】python实现对音频进行简单的静音检测和去除

kakaZhui

于 2025-01-26 00:00:00 发布

阅读量1.3k

点赞数 16

文章标签：音视频 python 语音识别人工智能

本文链接：https://blog.csdn.net/kakaZhui/article/details/145336975

版权

技术方案

在 Python 中，可以使用以下方法对音频进行简单的静音检测和去除：

1. 基于能量的静音检测

这种方法通过计算音频帧的能量（通常是均方根能量或短时能量）来判断是否为静音。当能量低于某个阈值时，就认为该帧是静音。

所需库:

librosa: 用于音频特征提取和分析 (pip install librosa)
numpy: 用于数值计算 (pip install numpy)
soundfile (可选): 用于音频文件的读取和写入 (pip install soundfile)

步骤:

加载音频文件: 使用 librosa.load() 或 soundfile.read() 加载音频文件。
分帧: 将音频信号分成短时帧。
计算每帧的能量: 使用 librosa.feature.rms() 计算均方根能量，或计算每帧的平方和。
设置阈值: 根据音频的背景噪声水平，设置一个合适的能量阈值。
静音检测: 将每帧的能量与阈值进行比较，低于阈值的帧被标记为静音。
去除静音: 根据静音标记，将静音帧从音频信号中移除或替换为零。
保存音频 (可选): 使用 librosa.output.write_wav() 或 soundfile.write() 将处理后的音频保存到文件。

代码示例:

import librosa
import numpy as np
import soundfile as sf

def remove_silence_energy(audio_file, output_file=None, frame_length=2048, hop_length=512, energy_threshold=0.005):
    """
    基于能量的静音去除

    Args:
        audio_file: 输入音频文件路径
        output_file: 输出音频文件路径 (可选)
        frame_length: 帧长
        hop_length: 帧移
        energy_threshold: 能量阈值

    Returns:
        non_silent_audio: 去除静音后的音频数据
    """

    # 加载音频
    y, sr = librosa.load(audio_file)

    # 计算均方根能量
    rms = librosa.feature.rms(y=y, frame_length=frame_length, hop_length=hop_length)[0]

    # 静音检测
    silent_frames = rms < energy_threshold

    # 去除静音
    non_silent_indices = np.where(~silent_frames)[0]
    non_silent_audio = y[non_silent_indices[0] * hop_length : (non_silent_indices[-1] + 1) * hop_length]

    # 保存音频 (可选)
    if output_file:
        sf.write

最低0.47元/天解锁文章