利用模型写survey(综述)类型的论文

这里是Ai写论文的链接

https://arxiv.org/pdf/2503.04629

开源地址

GitHub - Alpha-Innovator/SurveyForge: SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing

这篇论文和我去年写的专利中的思路很像,流程也基本一样。但是细节工作做的更扎实一些。

论文中有几个亮点

1. 生成大纲的时候,用到了类似于记忆的机制。人工提前构建好一些大纲,在给定写作topic的时候,利用RAG检索技术,找到相似的大纲,交给模型生成新的大纲。

2. 在写作过程中,利用到了RAG技术,去检索某个章节相关的段落,然后用于参考。

3. 论文中提出了评估写作的效果,这个工作蛮不错的。构建多维度综述评估基准SurveyBench。引入参考文献覆盖率指标(SAM-R)

4. 提出 ​时域感知重排序引擎(Temporal-aware Reranking Engine, TRE),提到的这个点挺好的,用于解决检索的时候的相关性问题。兼顾语义相关性,引用量,时间这几个因素。来对做论文的top排序。

这是生成survey的伪代码,很好理解

不足(个人观点)

1. 论文中提到的各个章节的写作是并行的,这虽然会给写作加速,但是这样生成的整篇内容会有非常大的割裂感,不连贯。还会出现写重的部分。

2. 感觉上这个写作,并没有全面的研究,没有深度。

surveyBench 测试框架

这是比较吸引我的地方,之前确实没看到过什么对ai生成的论文进行系统评估的方法。

生成质量指标

  • SAM-R(参考文献覆盖率)​:统计论文引文中与主题高度相关的比例,目标值≥80%。
  • SAM-O(大纲结构合理性)​:基于LaTeX章节完整性和逻辑连贯性评分(0-100分),要求涵盖引言、方法、实验、结论等必要部分。
  • SAM-C(内容深度)​:通过LLM评估技术细节(如数学推导、实验参数)的描述深度,分为低/中/高三档。

测试数据集

https://huggingface.co/datasets/U4R/SurveyBench

10个主题,100篇论文

关于评测细节,可以详细看论文中的附录,有每个评测的prompt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值