SurveyX: Academic Survey Automation via Large LanguageModels 论文简介

最新推荐文章于 2025-05-05 13:07:46 发布

ZHOU_CAMP

最新推荐文章于 2025-05-05 13:07:46 发布

阅读量1k

点赞数 25

分类专栏： agent 论文解读文章标签：人工智能

本文链接：https://blog.csdn.net/qq_41472205/article/details/145917059

版权

agent 论文解读专栏收录该内容

21 篇文章

订阅专栏

SurveyX：基于大语言模型的学术综述自动化生成系统

引言

随着arXiv等学术平台每日新增论文数量的激增（2025年预计接收论文36.8万篇），研究人员面临“信息过载”的挑战。手动撰写综述需要耗费大量时间，且难以保证内容的全面性和时效性。尽管大语言模型（LLMs）在文本生成上表现出色，但现有自动化综述生成系统仍存在上下文窗口有限、引用质量不足、表达形式单一等问题。为此，中国人民大学、东北大学等团队提出SurveyX，一种基于LLM的自动化综述生成系统，通过创新的架构设计和模块优化，显著提升了生成质量，接近人类专家水平。

SurveyX的核心设计

SurveyX将综述生成分解为准备阶段和生成阶段，并引入多项关键技术：

1. 准备阶段：高效检索与预处理

动态扩展的参考文献检索
系统通过关键词扩展算法（Keyword Expansion Algorithm）动态扩展检索范围。例如，初始关键词为“LLM”，系统会基于语义聚类提取新关键词（如“检索增强生成”“幻觉问题”），结合在线（Google Scholar爬虫）与离线（arXiv数据库）数据源，确保文献的全面性和时效性。
AttributeTree：结构化信息提取
传统方法直接提供论文全文，导致信息密度低。SurveyX为每篇论文构建属性树模板（如方法类论文的“背景-问题-实验-结论”结构），提取关键信息（如创新点、实验设置），将多篇论文整合为“属性森林”，大幅提升LLM对文献的理解效率。

2. 生成阶段：逻辑优化与多模态表达

大纲优化（Outline Optimization）
生成大纲时，LLM先为每篇文献生成“提示”（Hints），再基于提示合成二级大纲并去重重组，解决传统方法中大纲冗余、逻辑松散的问题。
RAG重写与图表生成
在正文生成后，系统通过**检索增强生成（RAG）**模块修正引用准确性，删除无关内容，并添加图表。例如，从文献属性树中提取实验数据，自动生成对比表格；或调用多模态模型（MLLMs）插入示意图，增强可读性。