中科院开源PPT Agent，一键自动生成PPT智能体

AI大模型-派大星

于 2025-05-09 11:42:23 发布

阅读量989

点赞数 25

文章标签： Agent AI大模型大模型大模型学习大模型入门智能体 LLM

本文链接：https://blog.csdn.net/2401_85327249/article/details/147817349

版权

前言

估计不少小伙伴一提到写PPT就头疼吧！写文案的时候，绞尽脑汁也想不出吸引人的内容，好不容易憋出几段话，总觉得干巴巴的毫无亮点。排版再好，过了一夜怎么看怎么别扭。

所以，中国科学院软件研究所、中国科学院大学和上海捷心科技的研究人员联合开源了PPT Agent。

PPT Agent可以像人类那样通过分析精美参考幻灯片，提取内容模式和布局结构，然后根据输入文档的内容，逐步编辑和优化幻灯片。同时还具备自我修正功能，确保生成的PPT在内容、设计和连贯性上都达到用户要求，极大节省时间和精力。

开源地址：https://github.com/icip-cas/PPTAgent

PPTAgent的核心技术与创新点在于其独特的两阶段演示文稿生成方法，这种设计灵感来源于人类制作PPT的自然流程。

传统的PPT生成方法往往直接从文本内容到幻灯片的转换，容易导致生成的演示文稿缺乏视觉吸引力和结构连贯性。而 PPTAgent 通过模仿人类 “ 选择参考幻灯片并逐步编辑 ” 的工作方式，巧妙地解决了这一问题。

在第一阶段，PPTAgent对参考演示文稿进行深入分析。它首先对幻灯片进行聚类，将它们分为结构幻灯片和内容幻灯片。结构幻灯片用于支撑演示文稿的整体组织，例如标题页和目录页；

内容幻灯片则用于传达具体信息，如项目符号列表或图表。通过利用大模型的强大能力，PPTAgent能够识别幻灯片的结构角色，并根据其文本特征进行分组。

对于内容幻灯片，会将其转换为图像，并应用层次聚类方法将相似的幻灯片图像分组。随后，PPTAgent 利用多模态大模型分析这些图像，识别出每个聚类中的布局模式。这一过程不仅为后续的幻灯片生成提供了清晰的参考，还确保了生成的演示文稿在结构上的一致性和逻辑性。

在内容模式提取方面，PPTAgent进一步定义了一个详细的提取框架。每个幻灯片元素都被赋予了类别、描述和内容，这种结构化的表示方式使得幻灯片的内容组织更加清晰明了。

例如，一个幻灯片可能包含标题、正文、图像等元素，每个元素都有明确的描述和数据内容。这种细致的内容模式提取为后续的幻灯片生成提供了坚实的基础，使得PPTAgent能够更好地理解幻灯片的布局和内容组织。

进入第二阶段，PPTAgent的创新之处在于其基于编辑的生成方法。与传统的从零开始生成幻灯片的方法不同，PPTAgent通过选择合适的参考幻灯片，并对其进行逐步编辑，从而创建新的幻灯片。这种方法不仅保留了参考幻灯片的精心设计的布局和样式，还通过编辑操作实现了内容的更新和优化。PPTAgent设计了一系列编辑API，支持对幻灯片元素的编辑、删除和复制操作。

这些API结合HTML渲染技术，使得大模型能够以更直观的方式理解和修改幻灯片内容。与传统的XML格式相比，HTML格式更加简洁明了，易于操作，从而提高了生成过程的效率和准确性。

此外，PPTAgent 还引入了一种自我修正机制，以增强生成过程的鲁棒性。在幻灯片生成过程中，生成的编辑操作将在REPL环境中执行，当操作无法应用于参考幻灯片时，REPL会提供执行反馈，帮助大模型调整其编辑操作。

通过这种迭代修正的方式，PPTAgent能够有效避免生成错误或不一致的幻灯片，确保最终生成的演示文稿在内容和结构上的高质量。

为了测试PPTAgent的性能，研究人员从Zenodo10K数据集中选取了50个作为参考演示文稿，并从相同领域收集了50篇文档作为输入，生成了500个演示文稿任务，覆盖5个领域、10种输入文档和10种参考演示文稿的组合。

结果显示，PPTAgent在内容、设计和连贯性三个维度上均显著优于现有的演示文稿生成方法。例如，与基于规则的DocPres和基于模板的KCTV相比，PPTAgent在内容质量上提升了12.1%至28.6%，在设计上提升了13.2%至40.9%，在连贯性上更是实现了25.5%至36.6%的大幅提高。这些结果表明PPTAgent能够生成高质量、视觉吸引力强且结构连贯的演示文稿。