语音识别提取某短视频文案

Clusm

已于 2023-05-26 14:26:07 修改

阅读量833

点赞数 1

分类专栏： Python学习文章标签：语音识别音视频 python

于 2023-04-03 14:18:10 首次发布

本文链接：https://blog.csdn.net/weixin_42199022/article/details/129928518

版权

该程序借助ffmpy3将视频转为音频，利用百度语音识别API将音频转换成文本，并通过docx将结果存入Word文档。用户通过GUI选择处理的文件夹，程序遍历文件，对视频和音频文件进行识别处理。

摘要由CSDN通过智能技术生成

这个程序的功能是读取指定文件夹中的视频文件，将其转换为音频文件，并使用百度语音识别API将音频文件转换为文本，最后将文本保存到一个Word文档中。程序使用了多个Python库和技术，包括：

aip：百度AI开放平台的Python SDK，用于调用语音识别API。
ffmpy3：用于将视频文件转换为音频文件。
tkinter：Python的标准GUI库，用于创建GUI界面。
os：用于操作文件和目录。
time：用于获取当前时间。
json：用于处理JSON格式的数据。
traceback：用于获取异常信息。
docx：用于创建和操作Word文档。
程序的主要流程是：首先使用tkinter库创建一个GUI界面，让用户选择要处理的文件夹。然后程序遍历文件夹中的所有文件，对于视频文件，使用ffmpy3库将其转换为音频文件，然后使用aip库将音频文件转换为文本，并将文本添加到Word文档中。对于已经是音频文件的文件，直接使用aip库将其转换为文本，并将文本添加到Word文档中。最后，程序将Word文档保存到本地。

#读取视频并将其转换为音频，整理成不多于60s的音频文件由百度接口进行识别
#实现读取文件夹依次读取其中视频

from aip import AipSpeech
from ffmpy3 import FFmpeg
from tkinter import *
import tkinter.filedialog
import tkinter.messagebox
import random
import os
import time
import json
import traceback
from docx import Document
from docx.shared import Pt #设置像素、缩进等
from docx.shared import RGBColor #设置字体颜色
from docx.oxml.ns import qn


document = Document()

class Translate():
    counter = 0
    def __init__(self):

        self.APP_ID = '31585854'
        self.API_KEY = '2jSOXUSuiNpfWyCuHGP62SWG '
        self.SECRET_KEY = 'Yp7bNwjBPSCCunWnc28SmzsyQ8zTbXxA '

        self.root = tkinter.Tk()
        self.root.title("语音识别")
        self.root.minsize = (600, 400)
        self.frame = tkinter.Frame(self.root)
        self.frame.pack()

        self.start_button = tkinter.Button(self.frame, command=self.chose, text="选择文件夹").grid(row=1, column=0,pady=5)
        self.speech_text = tkinter.Text