python 音频文件处理 pydub

本文介绍了Python库pydub的基本用法,包括安装依赖(如ffmpeg或libav),如何使用AudioSegment处理音频文件(如打开、导出、合并、淡入淡出等),以及playback和utils函数的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

pydub是一个用于处理音频文件的模块


pydub安装

pip install pydub

依赖:需安装ffmpeg或者libav

  • Mac

    # libav
    brew install libav --with-libvorbis --with-sdl --with-theora
    
    ####    OR    #####
    
    # ffmpeg
    brew install ffmpeg --with-libvorbis --with-sdl2 --with-theora
    
  • Linux

    # libav
    apt-get install libav-tools libavcodec-extra
    
    ####    OR    #####
    
    # ffmpeg
    apt-get install ffmpeg libavcodec-extra
    
  • Windows

    libav下载地址:https://libav.org/download/

    ffmpeg下载地址:https://www.ffmpeg.org/download.html


pydub使用

AudioSegment() 使用方式:
from pydub import AudioSegment
  • 打开音频文件

    # 打开wav格式音频文件
    sound = AudioSegment.from_wav('./soundfile.wav')
    
    # 打开mp3音频文件,AudioSegment原生只支持wav,raw文件,安装ffmpeg可支持其所有格式
    sound = AudioSegment.from_mp3('./soundfile.mp3')
    
    # 打开音频文件,生成AudioSegment对象
    sound = AudioSegment.from_file('./soundfile.mp3')	# format默认值为"mp3"
    sound = AudioSegment.from_file('./soundfile.wav', format='wav')
    # 打开raw文件需要额外参数,sample_width(采样位数),frame_rate(采样频率),channels(声通道)
    # sample_width: 1、8bit,2、16bit,3、32bit
    # frame_rate: 44100(44.1kHz CD audio), 48000(48kHz DVD audio)
    # channels: 1、单声道,2、立体声
    sound = AudioSegment.from_file('./soundfile.raw', format='raw', frame_rate=44100, channels=2, sample_width=2)
    
  • 导出音频文件

    sound = AudioSegment.from_file('./soundfile.wav', format='wav')
    
    # 导出音频文件
    sound.export('./outputsoundfile.mp3', format='mp3')
    
  • 创建音频文件

    # 生成一个时间长度为0秒的AudioSegment对象,一般用于多个音频合并
    sound = AudioSegment.empty()
    
    # 生成一个时间长度为5秒的无声AduioSegment对象
    # 参数duration:时间长度(毫秒),frame_rate:频率,默认为11025Hz
    sound = AudioSegment.silent(duration=50000)
    
  • 合并音频文件

    # 两个单声道音频合并为一个多声道音频
    left_channel = AudioSegment.from_wav('sound_left.wav')
    right_channel = AudioSegment.from_wav('sound_right.wav')
    stereo_sound = AudioSegment.from_mono_auidosegments(left_channel,right_channel)
    # 将多声道音频分解成两个单声道
    sound = AudioSegment.from_wav('sound.wav')
    sound.split_to_mono()
    
    # 两个音频文件合并为一个音频文件
    sound1 = AudioSegment.from_file('sound1.wav', format='wav')
    sound2 = AudioSegment.from_file('sound2.wav', format='wav')
    # 无交叉淡入淡出
    sound = sound1 + sound2
    # OR
    sound = sound1.append(sound2, crossfade=0)
    # 淡入淡出,参数crossfade:效果持续时间,默认100毫秒
    sound = sound1.append(sound2, crossfade=100) 
    
    # 两个音频文件叠加为一个音频文件
    # 例,长音频sound1,30s
    sound1 = AudioSegment.from_file('sound1.wav', format='wav')
    # 例,短音频sound2,10s
    sound2 = AudioSegment.from_file('sound2.wav', format='wav')
    # 将sound2叠加至sound1上,参数postions:从sound1音频10秒处开始叠加,默认为0,得到的音频文件,会从10秒处开始出现sound2音频,20秒处sound2音频结束,只余sound1音频
    sound = sound1.overlay(sound2, postions=10000)
    # 将sound2叠加至sound1上,参数loop:开启循环,默认为Fasle,得到的音频文件sound2将会循环播放至sound1结束
    sound = sound1.overlay(sound2, loop=true)
    # 将sound2叠加至sound1上,参数times:重复次数,默认为1,得到的音频文件sound2将会重复两次,在两个sound2的时间结束sound2音频
    sound = sound1.overlay(sound2, times=2)
    # 将sound1叠加至sound2上,10秒后sound2音频结束,sound1音频截断至10s结束,最终该音频长度只有10s,即
    sound = sound2.overlay(sound1)
    len(sound) == sound2
    
  • 音频文件信息

    sound = AudioSegment.from_file('soundfile.wav', format='wav')
    
    # 声道数
    schannel = sound.channels
    
    # 采样位数,也称位深度,是指每个采样样本所包含的位数(字节数),通常有8 bit、16 bit
    sbytes = sound.sample_width
    
    # 采样频率,也称采样率,是指在单位时间内对声音信号的采样数或样本数,采样频率越能高表现的频率范围越大(电话:8kHZ,无线电广播:22.05kHz,CD:44.1kHz,DVD:48kHZ,蓝光:96kHz,192kHz)
    srate = sound.frame_rate
    
    # 帧位数, 帧包含每个声道的采样位数frame_width = channels * sample_width
    sframebytes = sound.frame_width
    
    # 音频文件帧数, 可选参数ms:时间长度,默认None
    sframe = sound.frame_count()
    
    # 音频文件时长,单位秒
    stime = sound.duration_seconds
    # OR
    stime = (len(sound) / 1000)
    
  • 处理音频文件

    sound = AudioSegment.from_file('soundfile.wav', format='wav')
    
    # 音频前5秒,pydub中时间以毫秒(ms)为单位
    audio_begin = sound[:5000]
    # 音频后5秒,pydub中时间以毫秒(ms)为单位
    audio_end = sound[-5000:]
    
    # 改变音频幅度,以分贝(dB)为单位
    # 调高幅度
    raise_via = sound.apply_gain(+5)
    raise_via = sound + 5
    # 调低音量
    lower_via = sound.apply_gain(-5)
    lower_via = sound - 5
    
    # 淡入淡出效果
    # 淡入,参数duration:持续时间
    sound.fade_in(duration=5000)
    # 淡出,参数duration:持续时间
    sound.fade_out(duration=5000)
    
    # 倒放音频文件
    newsound = sound.reverse()
    
playback() 使用方式:
from pydub import playback
  • 播放音频文件

    from pydub import AduioSegment
    from pydub.playback import play
    
    sound = AduioSegment.from_wav('sound.wav')
    
    # 播放音频
    play(sound)
    
utils() 使用方式:
from pydub import utils
  • 分割音频

    from pydub import AudioSegment
    from pydub.utils import make_chanks
    
    sound = AduioSegment.from_wav('sound.wav')
    
    # 分割音频, 参数chunk_length:一段音频多长时间
    make_chanks(sound, chunk_length=5000)
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值