AI多模态、多智能体故事视频生成系统:MM-StoryAgent 下载、安装、部署、配置教程

推荐一款由上交大和阿里开源的AI多模态故事生成系统:MM-StoryAgent
——多模态、多智能体框架

MM-StoryAgent是由上海交通大学与阿里巴巴联合开源的一款创新AI系统,致力于自动生成富有创意和沉浸感的故事视频。它不仅支持文本生成,还能同步生成图像、音效、背景音乐等多种模态内容,为儿童故事创作提供了高效且灵活的解决方案。该系统通过模拟专家与新手作家的对话,优化创作过程,确保故事的质量和完整性。

通过多阶段写作流程,MM-StoryAgent能够首先构建故事大纲,再逐步扩展为完整的章节,确保内容丰富、逻辑清晰。此外,系统内置的多个智能体将文本内容转化为不同模态的提示,并采用“修订-审核”机制不断迭代优化,确保各模态之间的内容一致性,特别是在图像生成时角色形象的一致性。

该系统的开源代码可通过GitHub获取:MM-StoryAgent GitHub:https://github.com/MaoTouHU/QW_StoryAgent

源码库克网盘链接🔗:https://pan.quark.cn/s/63538540e6d4


作者简介

作者名片 ✍️

  • 博主猫头虎
  • 全网搜索关键词猫头虎
  • 作者微信号Libin9iOak
  • 作者公众号猫头虎技术团队
  • 更新日期2025年03月12日
  • 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能!

正文

MM-StoryAgent概述

MM-StoryAgent是一个多智能体框架,通过结合大规模语言模型(LLM)和多种模态专家工具,打造沉浸式故事生成体验。系统设计了灵活且可定制的工作流程,允许用户根据需求定义和优化生成过程,以提高创作质量。

其核心特点包括:

  • 多模态生成:系统能够生成包括文本、图像、语音和音乐在内的多种内容,最终将这些资产组合成一个高质量的故事视频。
  • 多阶段生成流程:故事创作流程分为多个阶段,先生成大纲,再逐步扩展和优化章节内容。
  • 智能体协同:通过不同的智能体协作,每个模态的生成任务都得到了精确控制,并经过优化,确保最终输出的多模态内容相互协调。
    在这里插入图片描述

MM-StoryAgent适用于各种创意内容生成,特别是在儿童教育和娱乐领域,能够提供高质量、富有表现力的故事视频。


安装与使用

要使用MM-StoryAgent,首先需要安装依赖项并将其作为包安装:

pip install -r requirements.txt
pip install -e .

随后,您可以通过配置文件启动系统:

python run.py -c configs/mm_story_agent.yaml

每个智能体的配置和调用方式也十分灵活,可以根据需要调整各类参数,以定制不同的创作需求。

在线体验:https://huggingface.co/spaces/wsntxxn/MM-StoryAgent

在这里插入图片描述


快速入门

本地环境配置项:
在这里插入图片描述

MM-StoryAgent可以通过配置文件调用:

python run.py -c configs/mm_story_agent.yaml

每个Agent的调用格式如下:

story_writer: # agent name
    tool: qa_outline_story_writer # name registered in the definition
    cfg: # parameters for initializing the agent instance
        max_conv_turns: 3
        ...
    params: # parameters for calling the agent instance
        story_topic: "Time Management: A child learning how to manage their time effectively."
        ...

新Agent的定制可以参考music_agent.py。Agent类需要实现__init__call才能正常工作,如下所示:

from typing import Dict
from mm_story_agent.base import register_tool

@register_tool("my_speech_agent")
class MySpeechAgent:
    
    def __init__(self, cfg: Dict):
        # For example, the agent need `attr1` and `attr2` for initilization
        self.attr1 = cfg.attr1
        self.attr2 = cfg.attr2
        ...
    
    def call(self, params: Dict):
        # For example, calling the agent needs `voice` and `speed` parameters
        voice = params["voice"]
        speed = params["speed"]
        ...
    

然后只需修改配置即可调用Agent,例如:

speech_generation:
    tool: my_speech_agent
    cfg:
        attr1: val1
        attr2: val2
    params:
        voice: en_female
        speed: 1.0

故事内容评估

StoryAgent团队使用 GPT-4 根据多个方面自动评估故事质量。StoryAgent团队的故事写作Agent与直接提示 LLM 撰写故事进行了比较。评估分数显示了StoryAgent团队的多Agent、多阶段故事写作流程的优势。

评分标准吸引力温暖教育平均的
主题一:自我成长直接的3.684.424.844.31
故事Agent4.14.54.804.47
主题 2:家庭与友谊直接的3.945.04.724.55
故事Agent4.364.84.924.69
主题 3:环境直接的4.04.624.924.51
故事Agent4.444.684.864.66
主题四:知识学习直接的4.464.144.864.49
故事Agent4.844.524.904.75
全部直接的4.024.554.844.47
故事Agent4.444.634.874.65

从评估数据可以看出,MM-StoryAgent不仅提升了故事的吸引力和教育意义,还显著提高了温暖感与主题深度。


结语

MM-StoryAgent是一个革命性的多模态故事生成系统,集成了先进的AI技术,为内容创作提供了全新的工具和视角。无论是在儿童故事创作还是教育资源开发领域,它都能大幅提升创作效率与内容质量,成为AI在内容生成领域的重要突破。通过不断优化与迭代,MM-StoryAgent将在未来的故事创作中发挥更加重要的作用。

粉丝福利


👉 更多信息:有任何疑问或者需要进一步探讨的内容,欢迎点击文末名片获取更多信息。我是猫头虎,期待与您的交流! 🦉💬

联系我与版权声明 📩

  • 联系方式
    • 微信: Libin9iOak
    • 公众号: 猫头虎技术团队
  • 版权声明
    本文为原创文章,版权归作者所有。未经许可,禁止转载。更多内容请访问猫头虎的博客首页

点击✨⬇️下方名片⬇️✨,加入猫头虎AI共创社群,交流AI新时代变现的无限可能。一起探索科技的未来,共同成长。🚀

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猫头虎

一分也是爱,打赏博主成就未来!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值