python实现视频或音频转文本

最新推荐文章于 2025-03-25 14:37:40 发布

阿福不是狗

最新推荐文章于 2025-03-25 14:37:40 发布

阅读量1.9k

点赞数 6

分类专栏： Python使用总结文章标签： python 音视频开发语言

本文链接：https://blog.csdn.net/lzf9651/article/details/136456549

版权

Python使用总结专栏收录该内容

53 篇文章

订阅专栏

本文介绍了一个Python代码示例，使用SpeechRecognition库和ffmpeg工具，实现本地音频和视频文件的自动转录，适用于开发者、数据科学家等人群，可用于自动化工作流程、数据分析和内容创作，同时注重用户隐私和文件安全。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python实现视频或音频转文本

当然可以，以下是您的Python语音视频转文本代码的描述：

内容概要：
这段Python代码利用强大的语音识别库，能够自动将本地存储的语音视频文件转换成文本。它通过分析音频轨道中的语音数据，识别并转录为可编辑和可搜索的文本格式。

适用人群：

开发者和程序员，希望在他们的项目中集成语音识别功能。
数据科学家和工程师，需要从音频资料中提取文本数据进行分析。
教育工作者和在线内容创作者，希望为视频提供文字版内容。
语言学习者，通过转录音频来学习和练习。

适用场景及目标：

自动化工作流程：将会议录音、讲座或播客自动转换为文本，提高工作效率。
数据收集和分析：从音频资料中提取文本，用于进一步的语言分析或机器学习训练。
内容创作：为视频或音频内容创建字幕，增加可访问性和观众范围。
语言学习：帮助学习者通过对照转录文本和原始音频来提高语言技能。

其他说明：

代码可定制性强，可根据需求调整识别准确度和处理速度。
支持多种音频格式，灵活适应不同的文件类型。
可以轻松集成到现有的Python项目中，与其他库和框架兼容。
注重用户隐私，不会上传文件到外部服务器进行处理。

# -*- coding: utf-8 -*-
import speech_recognition as sr
import subprocess
import os


def transcribe_audio(file_path):
    """
  将音频文件识别内容，并将语音转为文字。

  参数：
    file_path: 音频文件的路径。

  返回：
    识别出的文本。
  """

    # 创建 SpeechRecognition 对象
    r = sr.Recognizer()

    # 将文件转换为flac文件
    directory = os.path.dirname(file_path)
    flac_file_path = directory+"/output.flac"
    subprocess.run(["ffmpeg", "-i", file_path, "-acodec", "flac", flac_file_path],  encoding='utf-8')

    # 打开转换后的音频文件
    with sr.AudioFile(flac_file_path) as source:
        audio = r.record(source)

    # 识别语音
    try:
        text = r.recognize_google(audio, language='zh-CN')
    except sr.RequestError:
        print("API 请求失败")
    except sr.UnknownValueError:
        print("无法识别语音")
    finally:
        # 删除文件 output.flac
        os.remove(flac_file_path)
    return text


if __name__ == '__main__':
    # 将本地音频文件识别内容，并转为文字
    audio_file_path = "文件路径"
    text = transcribe_audio(audio_file_path)
    print(text)