python 音频文件处理 pydub

最新推荐文章于 2025-04-14 12:35:14 发布

偷的半日闲

最新推荐文章于 2025-04-14 12:35:14 发布

阅读量543

点赞数 6

文章标签： python 开发语言

本文链接：https://blog.csdn.net/mitan2010/article/details/132634669

版权

本文介绍了Python库pydub的基本用法，包括安装依赖（如ffmpeg或libav），如何使用AudioSegment处理音频文件（如打开、导出、合并、淡入淡出等），以及playback和utils函数的使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

pydub是一个用于处理音频文件的模块

pydub安装

pip install pydub

依赖：需安装ffmpeg或者libav

Mac

# libav
brew install libav --with-libvorbis --with-sdl --with-theora

####    OR    #####

# ffmpeg
brew install ffmpeg --with-libvorbis --with-sdl2 --with-theora

Linux

# libav
apt-get install libav-tools libavcodec-extra

####    OR    #####

# ffmpeg
apt-get install ffmpeg libavcodec-extra

Windows

libav下载地址：https://libav.org/download/

ffmpeg下载地址：https://www.ffmpeg.org/download.html

pydub使用

AudioSegment() 使用方式：

from pydub import AudioSegment

打开音频文件

# 打开wav格式音频文件
sound = AudioSegment.from_wav('./soundfile.wav')

# 打开mp3音频文件，AudioSegment原生只支持wav，raw文件，安装ffmpeg可支持其所有格式
sound = AudioSegment.from_mp3('./soundfile.mp3')

# 打开音频文件，生成AudioSegment对象
sound = AudioSegment.from_file('./soundfile.mp3')	# format默认值为"mp3"
sound = AudioSegment.from_file('./soundfile.wav', format='wav')
# 打开raw文件需要额外参数，sample_width（采样位数），frame_rate（采样频率），channels（声通道）
# sample_width: 1、8bit，2、16bit，3、32bit
# frame_rate: 44100(44.1kHz CD audio), 48000(48kHz DVD audio)
# channels: 1、单声道，2、立体声
sound = AudioSegment.from_file('./soundfile.raw', format='raw', frame_rate=44100, channels=2, sample_width=2)

导出音频文件

sound = AudioSegment.from_file('./soundfile.wav', format='wav')

# 导出音频文件
sound.export('./outputsoundfile.mp3', format='mp3')

创建音频文件

# 生成一个时间长度为0秒的AudioSegment对象，一般用于多个音频合并
sound = AudioSegment.empty()

# 生成一个时间长度为5秒的无声AduioSegment对象
# 参数duration:时间长度（毫秒），frame_rate:频率，默认为11025Hz
sound = AudioSegment.silent(duration=50000)

合并音频文件

# 两个单声道音频合并为一个多声道音频
left_channel = AudioSegment.from_wav('sound_left.wav')
right_channel = AudioSegment.from_wav('sound_right.wav')
stereo_sound = AudioSegment.from_mono_auidosegments(left_channel,right_channel)
# 将多声道音频分解成两个单声道
sound = AudioSegment.from_wav('sound.wav')
sound.split_to_mono()

# 两个音频文件合并为一个音频文件
sound1 = AudioSegment.from_file('sound1.wav', format='wav')
sound2 = AudioSegment.from_file('sound2.wav', format='wav')
# 无交叉淡入淡出
sound = sound1 + sound2
# OR
sound = sound1.append(sound2, crossfade=0)
# 淡入淡出，参数crossfade:效果持续时间，默认100毫秒
sound = sound1.append(sound2, crossfade=100) 

# 两个音频文件叠加为一个音频文件
# 例，长音频sound1，30s
sound1 = AudioSegment.from_file('sound1.wav', format='wav')
# 例，短音频sound2，10s
sound2 = AudioSegment.from_file('sound2.wav', format='wav')
# 将sound2叠加至sound1上，参数postions:从sound1音频10秒处开始叠加，默认为0，得到的音频文件，会从10秒处开始出现sound2音频，20秒处sound2音频结束，只余sound1音频
sound = sound1.overlay(sound2, postions=10000)
# 将sound2叠加至sound1上，参数loop:开启循环，默认为Fasle，得到的音频文件sound2将会循环播放至sound1结束
sound = sound1.overlay(sound2, loop=true)
# 将sound2叠加至sound1上，参数times:重复次数，默认为1，得到的音频文件sound2将会重复两次，在两个sound2的时间结束sound2音频
sound = sound1.overlay(sound2, times=2)
# 将sound1叠加至sound2上，10秒后sound2音频结束，sound1音频截断至10s结束，最终该音频长度只有10s，即
sound = sound2.overlay(sound1)
len(sound) == sound2

音频文件信息

sound = AudioSegment.from_file('soundfile.wav', format='wav')

# 声道数
schannel = sound.channels

# 采样位数，也称位深度，是指每个采样样本所包含的位数（字节数），通常有8 bit、16 bit
sbytes = sound.sample_width

# 采样频率，也称采样率，是指在单位时间内对声音信号的采样数或样本数，采样频率越能高表现的频率范围越大（电话：8kHZ，无线电广播：22.05kHz，CD：44.1kHz，DVD：48kHZ，蓝光：96kHz，192kHz）
srate = sound.frame_rate

# 帧位数, 帧包含每个声道的采样位数frame_width = channels * sample_width
sframebytes = sound.frame_width

# 音频文件帧数, 可选参数ms:时间长度，默认None
sframe = sound.frame_count()

# 音频文件时长，单位秒
stime = sound.duration_seconds
# OR
stime = (len(sound) / 1000)

处理音频文件

sound = AudioSegment.from_file('soundfile.wav', format='wav')

# 音频前5秒，pydub中时间以毫秒（ms）为单位
audio_begin = sound[:5000]
# 音频后5秒，pydub中时间以毫秒（ms）为单位
audio_end = sound[-5000:]

# 改变音频幅度，以分贝（dB）为单位
# 调高幅度
raise_via = sound.apply_gain(+5)
raise_via = sound + 5
# 调低音量
lower_via = sound.apply_gain(-5)
lower_via = sound - 5

# 淡入淡出效果
# 淡入，参数duration:持续时间
sound.fade_in(duration=5000)
# 淡出，参数duration:持续时间
sound.fade_out(duration=5000)

# 倒放音频文件
newsound = sound.reverse()

playback() 使用方式：

from pydub import playback

播放音频文件

from pydub import AduioSegment
from pydub.playback import play

sound = AduioSegment.from_wav('sound.wav')

# 播放音频
play(sound)

utils() 使用方式：

from pydub import utils

分割音频

from pydub import AudioSegment
from pydub.utils import make_chanks

sound = AduioSegment.from_wav('sound.wav')

# 分割音频, 参数chunk_length:一段音频多长时间
make_chanks(sound, chunk_length=5000)