OpenAI API - 使用Whisper和GPT-4模型开发一个自动化会议记录生成器

原创

已于 2024-05-21 16:32:45 修改

· 2.3k 阅读

36 ·

版权

文章标签：

#自动化 #python #chatgpt #人工智能

于 2024-05-20 19:24:31 首次发布

前言

本文章结合官方教程给大家介绍如何利用OpenAI的Whisper和GPT-4模型来开发一个自动化会议记录生成器。这个应用程序可以转录会议音频

一应用程序基本介绍

Whisper和GPT-4模型：Whisper是一个用于音频转录的模型，而GPT-4是一个用于自然语言处理的模型。在这个教程中，我们将结合这两个模型的功能。
自动化会议记录生成器：这个应用程序的主要功能是自动生成会议记录，从音频转录到总结讨论内容。
功能：
- 转录音频：将会议的音频内容转录成文字。
- 提供摘要：总结会议讨论的主要内容。
- 提取关键点和行动项：找出会议中的重要信息和需要执行的任务。
- 情感分析：分析会议内容的情感倾向。

二学习前置条件

本教程假设您具备基本的Python知识，并拥有一个OpenAI API密钥。您可以使用本教程提供的音频文件或您自己的音频文件。

此外，您需要安装python-docx和OpenAI库。您可以创建一个新的Python环境，并使用以下命令安装所需的软件包：

# 创建一个新的Python环境（可选）
python -m venv myenv
source myenv/bin/activate  # 对于Windows系统，使用 myenv\Scripts\activate

# 安装所需的软件包
pip install python-docx openai

三让我们开始构建吧

转录会议音频的第一步是将会议的音频文件传递给我们的/v1/audio API。Whisper模型是驱动音频API的核心，它能够将口语转换为书面文本。首先，我们将不传递提示或温度（用于控制模型输出的可选参数），而是使用默认值。

from openai import OpenAI

# 设置OpenAI API密钥
client = OpenAI(
    # defaults to os.environ.get("OPENAI_API_KEY")
    # api_key="My API Key",
)
from docx import Document

# 音频文件路径
audio_file_path = 'path/to/your/audio/file.mp3'

# 打开音频文件并传递给API
def transcribe_audio(audio_file_path):
    with open(audio_file_path, 'rb') as audio_file:
        transcription = client.audio.transcriptions.create("whisper-1", audio_file)
    return transcription['text']

在上面这个函数中