【Python】MP3音频文件识别（转）中文文本

最新推荐文章于 2025-03-25 14:37:40 发布

zhangbin_237

最新推荐文章于 2025-03-25 14:37:40 发布

阅读量1.8k

点赞数 39

分类专栏： Python机器学习文章标签： python 开发语言人工智能自然语言处理语音识别

本文链接：https://blog.csdn.net/weixin_39407597/article/details/142513943

版权

事先备注：离线方式，模型做不到100%，且识别出的文本时没有标点符号断句的。

所需python库

speech_recognition：用于语音转文本

pydub：用于mp3转wav

FFmpeg：用于MP3转wav，（仅仅pip安装是不够的，安装它的教程会单独写一篇）

mp3转wav

大多数库是不能直接识别mp3的，所以需要将mp3转为wav文件：

from pydub import AudioSegment

def convert_mp3_to_wav(mp3_file,wav_file):
    audio=AudioSegment.from_file(mp3_file,format='mp3')
    audio.export(wav_file,format='wav')

wav转为txt文件

def recog_mp3(mp3_audio_file):
    wav_audio_file = mp3_audio_file.replace(".mp3", ".wav")
    txt_audio_file = mp3_audio_file.replace(".mp3", ".txt")
    convert_mp3_to_wav(mp3_audio_file,wav_audio_file)
    r = sr.Recognizer()
    with sr.AudioFile(wav_audio_file) as source:
        audio = r.record(source)
    print('识