VideoChat：高效学习新神器！一键解读音视频内容，结合 AI 生成总结内容、思维导图和智能问答

最新推荐文章于 2025-04-18 08:30:00 发布

蚝油菜花

最新推荐文章于 2025-04-18 08:30:00 发布

阅读量2.2k

点赞数 59

分类专栏：每日 AI 项目与应用实例文章标签：学习音视频人工智能开源

本文链接：https://blog.csdn.net/qq_19841021/article/details/144098197

版权

每日 AI 项目与应用实例专栏收录该内容

659 篇文章

订阅专栏

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：支持批量上传音视频文件，自动转录为文字内容。
特点：提供内容总结、详细解读、思维导图等多种解读方式。
交互：支持智能对话，可针对音视频内容进行深入问答。

正文（附运行示例）

VideoChat 是什么

VideoChat演示

VideoChat 是一款基于 AI 技术的音视频内容解读助手，它能够将音视频文件自动转录为文字，并提供多种内容解读方式。通过 Whisper 模型实现高质量的语音转文字，使用 GLM-4 模型进行内容理解和生成。

该工具支持批量处理音视频文件，可以同时上传多个文件进行转录。转录完成后，用户可以查看转录文本，生成内容总结、详细解读和思维导图，还可以通过智能对话功能深入探讨视频内容。

VideoChat 的主要功能

音视频转录：支持批量上传音视频文件，自动转录为文字
导出字幕：支持 VTT、SRT、TXT 等多种格式导出转录结果

转录结果.jpg

内容总结：生成简单总结和详细总结，帮助快速理解内容

详细总结.jpg

思维导图：自动生成内容结构图，直观展示知识脉络

思维导图.jpg

智能对话：基于音视频内容进行上下文问答

对话交互.jpg

VideoChat 的技术原理

语音识别：使用 Whisper 模型进行音视频转录，支持多种模型大小选择
内容理解：采用 GLM-4 模型进行内容分析和生成
流式响应：使用异步流式处理，实现实时内容展示
状态管理：采用 React 状态管理，确保多文件处理的状态同步
文件处理：支持并发处理多个文件，提供中断和恢复功能

如何运行 VideoChat

克隆项目

使用 Git 克隆项目到本地：

git clone https://github.com/yourusername/VideoChat.git
cd VideoChat

环境准备

对于国内环境，你可能需要提前配置国内镜像源：

找到你Node.js的安装地址，在{NodeJS_ROOT}/node_modules/npm/.npmrc文件中，添加这行代码，更换为淘宝镜像源：

registry=https://registry.npm.taobao.org/

确保已安装 Python 3.8 或更高版本。
确保已安装 Node.js 14.x 或更高版本。
安装必要的依赖库：

pip install -r requirements.txt
cd frontend
npm install

配置文件

复制 config.template.py 文件为 config.py，并根据需要修改配置。

cd ../backend
cp config.template.py config.py

运行后端

cd ..
python app.py

或者

uvicorn backend.main:app --reload

后端默认运行在http://localhost:8000
你可以修改app.py文件中的host和port来修改后端地址。

运行前端

cd frontend
npm start

前端默认运行在http://localhost:3000
你可以修改package.json中的proxy来修改前端地址。

访问应用

打开浏览器，访问 http://localhost:3000 查看应用界面。

资源

GitHub 仓库：https://github.com/Airmomo/VideoChat

🥦 微信公众号｜搜一搜：蚝油菜花 🥦