FutureGen：生成科学文章未来工作的LLM-RAG方法

最新推荐文章于 2025-05-23 21:17:36 发布

Paper易论

最新推荐文章于 2025-05-23 21:17:36 发布

阅读量312

点赞数 4

文章标签：人工智能大数据算法

本文链接：https://blog.csdn.net/u013524655/article/details/146766938

版权

科学文章的未来工作部分通过识别当前研究的空白和局限性来概述潜在的研究方向。这一部分为寻找未开发领域的早期职业研究人员以及寻找新项目或合作的经验丰富的研究人员提供了宝贵的资源。在本研究中，我们从科学文章的关键部分及相关论文中生成未来工作建议，并分析趋势如何演变。我们尝试了各种大型语言模型（LLMs），并集成了检索增强生成（RAG）以增强生成过程。我们结合了一个LLM反馈机制以提高生成内容的质量，并提出了一种将LLM作为评估者的做法。我们的结果显示，基于RAG的方法加上LLM反馈在定性和定量指标评估中优于其他方法。此外，我们进行了一项人工评估，以评估LLM作为提取器和评估者的性能。

科学文章中的未来工作部分在放大研究影响方面起着至关重要的作用，通过展示前瞻性思维并突出研究的更广泛意义（Nicholas等人，2015；Aguinis等人，2018）。它充当进一步探索、跨学科合作和新想法的催化剂，将单一研究转化为未来进步的基础（Al Azhar等人，2021；Hara等人，2003）。除了学术界，未来工作见解还使政策制定者和资助机构受益，通过识别新兴研究方向并优先考虑战略性资源分配领域（Hyder等人，2011；Thelwall等人，2023；Simsek等人，2024）。一个精心构建的未来工作部分既具有方法论目的，也具有实用目的：它鼓励研究人员批判性地反思其研究的局限性，促进更高质量的后续研究，同时通过澄清作者对挑战和下一步的认识来简化同行评审过程（Kelly等人，2014）。承认研究的局限性为进一步探索提供了明确信号，将当前发现与未来发展联系起来（Conaway等人，2015）。此外，分析未来工作趋势的演变有助于研究人员与当前优先事项保持一致，发现未开发的空白，并避免重复。此外，理解长期研究轨迹使早期职业研究人员能够识别高影响力主题，并战略性地定位他们的贡献以推动科学进步（Ortagus等人，2020）。

作者撰写的未来工作部分存在许多问题。首先，它们通常不具体、模糊不清、不易找到且具有推测性（Suray等人，2024）。其次，作者可能难以表达有意义的未来方向，尤其是在面临空间限制或时间限制时。第三，他们可能不愿分享研究计划而没有明确的回报。这可能部分解释了为什么许多未来工作提案在发表后被忽视（Teufel，2017）。

人工智能（AI）的进步为解决这一差距提供了变革潜力。与传统方法不同，AI可以系统地综合研究轨迹、揭示潜在联系并提出符合新兴趋势的新方向（Wang等人，2023）。例如，Si等人（2024）显示，由LLM生成的想法比人类专家生成的想法更具创新性。然而，当前的AI应用如ChatGPT存在同质化输出的风险，降低个体创造力（Ashkinaze等人，2024；Anderson等人，2024）。标准LLM可能会生成过于概括、无关或虚构的未来工作方向。为应对这些挑战，这项工作利用LLM提出未来工作建议，使用基于LLM的反馈增强其输出，并纳入RAG使用跨域见解。

评估AI生成的未来工作句子是具有挑战性的。依赖于n-gram文本重叠或语义相似性的传统自然语言处理（NLP）评估指标，如ROUGE（Lin，2004）、BLEU（Papineni等人，2002）和BERTScore（Zhang等人，2019）无法完全捕捉这一生成过程的细微差别。为解决这个问题，我们纳入了基于LLM的评估，提供带解释的人类类似的评估。如果生成的未来工作未达到质量阈值，我们将使用基于LLM的反馈循环对其进行改进，提高其与上下文的一致性。通过整合迭代LLM反馈，我们减轻了先前AI驱动创意工具中观察到的模糊性和冗余问题。除此之外，我们的方法嵌入了时间趋势分析以跟踪随时间演变的变化。我们的贡献可总结如下：

数据集。我们创建了一个包含来自2012年至2024年ACL会议近8,000篇论文的未来工作句子数据集。论文通常没有专门的未来工作部分（它们与一般结论或局限性结合在一起），因此我们使用LLM提取适当的句子。然后，我们通过人工注释者验证此提取过程，确保LLM准确识别未来工作内容。
趋势分析。我们通过使用基于LLM的主题建模生成主题和标题，分析过去13年NLP领域未来工作的演变。仅依赖主题词或聚类的传统方法无法提供细致、可解释的画面。通过将基于LLM的主题建模与BERTopic（Grootendorst，2022）集成，我们的方法不仅生成主题，还生成描述性标题，提供对未来工作趋势更有意义和全面的分析。
未来工作生成。我们使用LLM为NLP论文生成未来工作句子。我们通过选择关键部分克服了上下文窗口长度问题。我们的RAG系统结合了其他论文的相关信息，提高了生成未来工作的质量和深度。
LLM作为评估者和反馈机制。我们将LLM用作评估者，不仅依赖于NLP评估指标来评估生成文本的质量，并使用评估者反馈改进生成过程。

2 相关工作

最近NLP和大型语言模型（LLMs）的进步使得自动提取和生成科学文章的各种部分成为可能，例如摘要（Gonçalves等人，2018）、方法论（Houngbo和Mercer，2012）和局限性（Al Azher等人，2024；Azher，2024；Al Azher和Alhoori，2024）。在未来的领域中，之前的研究集中在诸如提取（Hu和Wan，2015）、分类（Zhang等人，2023）、识别创造性主题（Song等人，2021）、主题分类（Hao等人，2020）和趋势预测（Qian等人，2021）等任务上。例如，一种基于BERT的模型已被用于标注“未来研究”句子，从而实现提取、聚类（Zhu等人，2019）和这些句子的影响分析（Suray等人，2024）。其他工作已将RAG集成用于创意生成（Radensky等人，2024）和进一步的趋势预测（Qian等人，2021）。然而，大多数努力集中于识别、收集或预测趋势，而不是合成提供可操作见解的建议性未来工作。我们的工作通过利用LLM从研究论文的关键部分生成建议性未来工作来填补这一空白。通过纳入RAG增强的跨论文见解，我们的方法提高了生成建议的相关性和连贯性。

LLM在科学研究中的应用引起了广泛关注，特别是在生成新颖的研究思想和假设方面。例如，在生物医学领域的新科学发现（Qi等人，2023），基于LLM的代理用于自动生成和测试社会科学假设（Manning等人，2024），以及使用奖励函数的概率模型用于假设生成和科学研究（Jain等人，2023）。此外，LLM能够生成新颖的研究思想（Lu等人，2024）。统计测试显示，LLM生成的思想在新颖性方面显著优于人类生成的思想，这是在从最近的会议中提取研究主题并提示LLM和人类生成思想之后得出的（Si等人，2024）。虽然先前的研究

图1：使用LLM和RAG生成未来工作的系统概述。已经探索了其他领域（如生物医学）中的LLM驱动假设生成，但在NLP领域的自动化建议性科学探索和创意生成仍然未被发掘。

改善LLM生成内容的一个关键方面是使用人类反馈机制（Ouyang等人，2022）。在缺乏此类机制的情况下，提出了自我完善技术，例如一种自我调试框架，其中LLMs无需人为干预即可识别和纠正自己的错误（Chen等人，2023）。此外，还有一种模型生成指令、输入、输出，并通过微调自身迭代过滤无效结果（Wang等人，2022）。AI反馈已被用于情境学习与提示批评（Fu等人，2023），在基于GPT-4的三反馈机制系统中生成新颖假设（Yang等人，2023），以及在LLM生成的响应中使用基于效用的反馈进行提示修订（Peng等人，2023）。

我们的工作基于这些进展，不仅使用LLM生成未来工作部分，还将其作为评分和证明输出的评估者。受自我完善技术的启发（Madaan等人，2023），我们通过迭代纳入LLM反馈来改进输入，消除了对额外训练或强化学习的需求，从而提高了生成内容的质量。

评估LLM生成的文本对于科学写作至关重要。比较人类和LLM表现的研究（Chiang和Lee，2023；Nguyen等人，2024）表明，基于LLM的评估（涵盖语法正确性、连贯性、准确性、覆盖率等方面）与人类判断高度一致。基于这些见解，我们使用基于LLM的评估来评估生成的未来工作的质量。总之，尽管在自动化生成科学文章部分和利用LLM进行科学发现方面取得了一些进展，但生成未来工作部分仍是一个开放的挑战。我们的工作通过提出一种结合LLM生成、RAG、自我完善和稳健评估指标的新方法来解决这一差距。

3 数据集收集与提取

我们使用Science Parse 工具从2012年至2024年在ACL会议上发表的大约8,000篇论文中提取了未来工作句子。提取过程如下：（1）如果论文有一个明确标记为“局限性和未来工作”的章节，我们提取整个章节。（2）如果“未来工作”不在章节标题中，我们提取至少包含“未来”或“未来工作”之一的句子。这种基于正则表达式的字符串匹配召回率很高，我们进一步使用LLM过滤这些句子以提高精度（详情见5.2节）（$4）。这产生了来自6,227篇论文的未来工作段落，平均每篇论文有五个句子，平均字数为65个单词。

4 方法论

我们的方法包括两个步骤： (1) 生成未来工作的主题和标题：我们应用基于LLM的主题建模生成未来工作的主题和标题，以便进行趋势分析（Al Azher等人，2024）。 (2) 生成未来工作：我们使用基于LLM的RAG方法从研究论文的关键部分生成未来工作，并使用基于LLM的评估和反馈。

4.1 生成未来工作的主题和标题

我们的数据集跨越13年，每年包含篇研究论文。我们提取了其未来工作部分，记为，其中代表包含一系列句子的“未来工作”段落，来自论文。然后我们将这些文本输入BERTopic，将其聚类成个主题（例如）。每个主题由一组主题词和相应的相关文本集合组成。我们采用了一种名为BERTopic的主题建模方法，使用基于BERT的转换器嵌入转换为密集向量，然后创建聚类以识别相似文档组。为了提高可解释性，我们将LLM与BERTopic集成以生成每个主题的描述性标题（见附录中的图3）。此过程针对数据集中的每一年重复进行，并收集每一年的主题标题（表9、7，附录）。

4.2 生成未来工作

图1说明了我们提出的模型的工作流程。我们从数据集中随机选择篇论文并将它们存储在矢量数据库中。随后，我们使用余弦相似度选择最类似于“未来工作”的前三个部分（任务1）（步骤1a），并将它们发送给检索器，检索器从矢量数据库中收集相关信息（步骤2a-5）。增强后的输入随后由LLM生成器处理以生成未来工作（步骤6、7）（任务3）。同时，从论文中提取的未来工作由LLM重新提取（步骤），以去除与未来工作无关的句子并生成真实数据（任务2）。这里，每篇论文的真实数据包含一系列未来工作段落。之后，LLM生成的未来工作和真实数据由LLM进行评估（步骤8，图1），根据性能分配分数（步骤9）。如果生成的输出未达到阈值，LLM将根据反馈重新生成（步骤10、11）（任务4）。

任务1：部分选择。在提取文本（第3节）后，我们使用基于余弦相似度的方法来确定生成未来工作最相关的部分。每篇论文包含摘要、引言和方法论等部分。我们计算每个部分与论文未来工作部分之间的余弦相似度（表8，附录），并在所有论文中选择平均相似度最高的前三部分，即摘要、引言和结论。这些部分构成了生成未来工作内容的基础。

任务2：精炼真实数据。在提取第3节描述的未来工作部分后，我们使用LLM作为提取器角色，隔离仅包含未来工作句子的部分，同时去除无关句子，从而生成精炼的未来工作（图1，步骤1b）。由于大多数论文没有专门的部分，而且未来工作往往分散在其他任何部分中，因此过滤掉噪声句子以确保准确提取至关重要（5.2节）。此外，我们进行了人工评估，以评估LLM是否擅长提取未来工作句子。通过这个过程，我们制作了银标准数据（详细信息见6.4节）。

任务3：使用LLM和RAG生成未来工作。从单篇论文生成未来工作可能导致狭窄、冗余或过于具体的建议，错过更广泛的研究趋势和跨学科见解。通过RAG结合其他论文的内容可以增强上下文相关性，确保与持续进展保持一致，并提供反映实际研究重点的多样化和有意义的贡献。为了生成一篇论文的未来工作，我们使用任务1中选择的前三部分（摘要、引言和结论），并整合了一个RAG系统，该系统由’ X ’数量的研究论文组成（详情见5.3节）。检索器处理输入查询，其中包括提示和研究论文的前三部分。然后，它使用余弦相似度从矢量数据库中检索附加相关信息，并应用排名机制优先提取的文本（图1，步骤）。最终增强输入（提示、选定部分和排名检索文本的组合）被送入LLM生成器，根据提供的上下文生成未来工作内容（图1，步骤6）。

任务4：评估和迭代改进。在从任务3生成未来工作后，我们将其质量与精炼的未来工作（任务2的真实数据）进行对比评估。我们采用了多种基于NLP的定量指标，并使用LLM作为评估者，根据连贯性、相关性、可读性、语法和整体质量评估LLM生成的文本与精炼的未来工作（图1，步骤8,9）。每次评估都按1（最差）到5（最佳）评分，并提供理由（图4，附录）。我们将3设为可接受的中间点。如果LLM生成的未来工作在任何指标中得分低于或等于3，则将理由纳入提示，并相应地重新生成未来工作。此迭代改进过程最多重复两次，以评估性能是否有所提高（图1，步骤9,10,11）。

指标	无LLM反馈	有LLM反馈
ROUGE-1	24.33
ROUGE-2	5.27
ROUGE-L	17.24
BScore(f1)	87.23
Jaccard S	15.40
Cosine S	48.07
BLEU	2.38
连贯性	3.94
相关性	4.07
可读性	3.19
语法	4.02
总体	3.85

表1：使用GPT-4o mini时无LLM反馈和有LLM反馈的性能对比。指标包括Jaccard相似性（Jaccard S）和余弦相似性（Cosine S）。

5 实验设置

5.1 主题建模

为了进行趋势分析，我们采用了增强的LLM主题建模方法，生成主题和相应的标题。具体来说，我们在零样本配置下整合了GPT 40 mini与BERTopic（因为少量样本方法倾向于

模型	迭代	连贯性	相关性	可读性	语法
Llama 3 ZS	1	3.83	4.47	4.04	3.44
Llama 3 FT	1	3.37	3.69	2.90	3.65
GPT 3.5	1	3.89	4.47	3.38	4.04
GPT 4om	1	3.94	4.07	3.19	4.02
GPT 4om + RAG	1	3.93	3.96	3.18	4.01
GPT 4om + RAG	2	3.97	4.50	3.50	4.06
GPT 4om + RAG	3	3.96	4.34	3.36	4.05

表2：不同模型生成未来工作的性能对比，与LLM提取的论文真实数据（GPT精炼真实数据）进行评估。注意：GPT 4om指GPT-4o mini，ZS表示零样本，FT表示微调，It.表示迭代，Coh.表示连贯性和逻辑，Rel.表示相关性和准确性，Read.表示可读性和风格，Gr.表示语法正确性。过度拟合，模仿提示示例）并设置了最小相似性阈值为0.75。

5.2 提取

我们使用Science Parse工具和Python正则表达式提取每篇论文的未来工作部分。在隔离这些文本后，我们在零样本配置下应用了温度为0的GPT 40 mini。我们的提示，“提取与未来工作相关的句子，其余忽略”，成功引导模型提取出仅包含未来工作相关句子的连贯段落，有效丢弃了无关内容。

5.3 生成

为了生成未来工作文本，我们使用70%的训练数据和30%的测试数据对BART和T5模型进行了微调。BART的最大令牌限制为1024，而T5限制为512个令牌，任何超过相应令牌限制的输入都将被忽略。对于这两个模型，生成的文本上限为100个令牌。此外，我们使用零样本方法应用了GPT-3.5和GPT-4o，设定温度为0.2进行相同任务。提示指出生成的文本不应超过100个单词，并利用它们分别具有16,000和128,000个令牌的上下文窗口。

生成余弦相似度：我们使用Sentence Transformers(‘all-MiniLM-L6-v2’)进行嵌入生成，并使用scikit-learn的余弦相似度函数进行相似度计算。

微调LLaMA：对于LLaMA 3.1微调，它是使用格式化数据训练的，其中’摘要’、’引言’和’结论’作为输入，提取的’未来工作作为

表3：生成未来工作的各种模型性能对比，考虑使用Python正则表达式从论文中提取未来工作（RAW真实数据，RAW GT）和LLM精炼的未来工作从RAW GT提取（GPT精炼真实数据，GPT GT）。注意：Iter.表示迭代，Sec.表示部分，R-1、R-2和R-L分别表示ROUGE-1、ROUGE-2和ROUGE-L得分。BS-F1表示BERTScore(F1)，JS和CS分别表示Jaccard相似性和余弦相似性。

表5：用户研究中平均评分和注释者用户协议。

7 讨论

我们的实验表明，GPT精炼真实数据与LLM生成的未来工作文本吻合良好，这表明原始真实数据包含更多噪声和无关句子。我们提出的方法可以从缺乏明确未来工作部分的论文中提取与未来工作相关的句子。此外，结合RAG与GPT 40 mini增加了Jaccard相似性和BERTScore，但减少了与零样本GPT 40 mini相比的n-gram重叠匹配。值得注意的是，考虑GPT精炼真实数据时，一次LLM反馈可以提高LLM的性能。为了提高通用性，我们的模型显示，纳入一轮反馈可以带来显著改进。然而，应用第二轮反馈会对性能产生负面影响，导致更偏向的响应。我们比较了使用所有部分与仅使用前三部分作为输入。尽管将分析限制在前三部分会导致轻微的性能下降（表4），我们采用了这种方法以缓解计算和API成本。反馈可能遗漏关于原创性或所提未来工作合理性的相关问题。为缓解这一问题，我们进行了一项人工实验（Q3）并获得了良好的平均评分（2.75）。我们依赖于相同的LLM（GPT 40 mini）作为生成器和评估者，这增强了LLM自身的偏差，我们尝试了Llama 3 70b作为评估者，但即使句子质量不佳，Llama也提供了不必要的高分（表11，附录）。

8 结论

未来工作部分是一种前瞻性的指南，帮助研究社区探索新的方向。我们选择了每篇研究论文的前三部分以缓解LLM上下文大小的限制。然后，我们利用LLM提取未来工作，生成更连贯的真实数据，提升模型性能。此外，我们集成了外部矢量数据库以进一步提高LLM从输入文本生成未来工作的性能。为了评估，我们应用了基于NLP的指标和LLM作为评估者的方法，使用可解释的LLM指标评估性能，提供反馈并逐步优化文本生成。此外，我们进行了13年的趋势分析，考察未来工作优先事项如何随时间演变，突出研究重点的关键转变。

局限性和未来工作

本研究专注于ACL论文（2012-2024），提供了强大的领域相关性，但限制了跨学科适用性。由于计算成本，RAG检索仅限于100篇论文。使用相同的LLM作为生成器和评估者可能引入影响输出分数的系统偏差。此外，我们假设LLM提取的未来工作可以用作真实数据，结合LLM反馈可以提高性能，LLM生成的建议性未来工作与真实数据一致——尽管这些评估基于有限的注释者和样本数量。虽然LLM评估连贯性、可靠性、可读性和语法正确性，但这些标准可能无法充分捕捉学术品质的核心要素，如原创性和所提未来工作的稳健性，并可能导致过拟合。此外，使用同一模型进行迭代细化可能导致收敛到狭窄的风格范围和一组想法，增加出现虚构内容的可能性。对于T5和BART，我们将输入长度分别限制为512和1024个令牌，这可能限制模型捕捉复杂研究背景的能力。此外，我们没有探索链式思维或自一致性方法下的LLM反馈，也没有分析带有和不带RAG集成的幻觉水平。在未来，我们将扩展到更广泛的科研领域，并改进隐含未来工作提及的提取方法。我们将试验开源LLM以减少API成本，并进行大规模实验以构建全面的矢量数据库，以提高RAG中的检索质量。我们将试验更多的人工注释者，以检查LLM作为提取器、生成器和迭代反馈循环是否足以解决学术写作在现实世界应用中的更深层次的定性方面，并构建黄金标准数据集。此外，为缓解LLM反馈带来的偏差，我们将试验从人类反馈中学习的强化学习（RLHF）和人工智能反馈（RLAIF）方法，以构建更稳健的模型。我们还将研究高级LLM推理技术，如链式思维和自一致性，以改进LLM反馈机制，并通过结合引用论文和审稿人视角来多元化见解，扩展未来工作的提取。

伦理声明

我们的工作涉及从科学文章中提取和生成未来工作部分，引发有关知识产权、作者身份和负责任AI使用的重大伦理考量。我们的方法并不完全依赖于研究论文的自动生成；我们的框架使用该过程来识别潜在的方向或研究中的空白。我们还纳入了外部评估指标和人工反馈以评估生成内容的质量。这有助于缓解过度拟合内部指标或LLM固有偏差的风险，确保最终内容既稳健又原创。为确保遵守伦理研究实践和学术诚信，我们遵循以下原则：1. 尊重原作者身份。我们不对生成的未来工作声称作者身份。相反，我们的方法作为一种辅助工具，用于分析和改进研究趋势，补充而非取代人类智力贡献。2. 合理使用和透明度。提取文本仅用于研究和分析目的。既不直接再版也不误导，当适用时我们会注明源文章以保持完全透明。3. 负责任的AI使用及避免误导内容。我们的基于LLM的生成过程旨在提炼和组织现有内容，而非捏造全新的研究方向。我们采用RAG框架和迭代改进机制，以确保生成的未来工作牢牢扎根于论文的实际贡献。这一策略防止投机或任意的方向，并减轻潜在的准则违规风险。在第6.4节中，我们详细描述了一项涉及三位注释者的用户研究，他们根据论文提到的内容评估了我们方法在生成未来工作方面的有效性。尽管在1到3（最差）的评分尺度上平均评分为1.92，表明中等性能，但它证明了我们的方法有效地将输出基于验证的、特定于论文的信息。4. 不替代人类贡献。生成的未来工作旨在通过组织、总结和阐明潜在的研究方向来协助研究人员。最终决策和实质性内容仍是人类作者的责任，从而保留学术作品的完整性。5. 符合伦理标准。我们的方法与ACL的伦理研究指南保持一致，并维持严格的学术诚信标准。我们并未自动化整个写作过程；而是提供一种工具，帮助研究人员更好地结构化和改进他们的未来工作建议。

参考文献

Herman Aguinis, Ravi S Ramani, 和 Nawaf Alabduljader. 2018. 你看到的就是你得到的？增强管理研究中的方法透明度。Academy of Management Annals, 12(1):83110.

Ibrahim Al Azhar, Sohel Ahmed, Md Saiful Islam, 和 Aisha Khatun. 2021. 使用Bi-LSTM与注意力机制识别孟加拉文学中的作者。In 2021年第24届计算机与信息技术国际会议（ICCIT），第1-6页。IEEE.

Ibrahim Al Azher 和 Hamed Alhoori. 2024. 减轻研究论文的视觉局限性。In 2024 IEEE大数据国际会议（BigData），第8614-8616页。IEEE.

Ibrahim Al Azher, Venkata Devesh Reddy, Hamed Alhoori, 和 Akhil Pandey Akella. 2024. Lintopic：基于LLM的主题建模和文本摘要方法，用于分析科学文章的局限性。In 2024 ACM/IEEE联合数字图书馆会议（JCDL）.

Barrett R Anderson, Jash Hemant Shah, 和 Max Kreminski. 2024. 大型语言模型对人类创造性构思的同质化效应。In 第16届创造力与认知会议论文集，第413-425页。

Joshua Ashkinaze, Julia Mendelsohn, Li Qiwei, Ceren Budak, 和 Eric Gilbert. 2024. AI理念如何影响人类理念的创造力、多样性和演变：来自大型动态实验的证据。arXiv预印本arXiv:2401.13481.

Ibrahim Al Azher. 2024. 使用LLM和基于图的方法生成研究文章的建议性局限性。In 第24届ACM/IEEE联合数字图书馆会议论文集，第1-3页。

Xinyun Chen, Maxwell Lin, Nathanael Schärli, 和 Denny Zhou. 2023. 教授大型语言模型自我调试。arXiv预印本arXiv:2304.05128.

Cheng-Han Chiang 和 Hung-yi Lee. 2023. 大型语言模型能否替代人类评估？arXiv预印本arXiv:2305.01937.

Carrie Conaway, Venessa Keesler, 和 Nathaniel Schwartz. 2015. 州教育机构真正需要什么样的研究？州纵向数据系统的承诺与局限。Educational Evaluation and Policy Analysis, 37(1_suppl):16S-28S.

Tri Dao, Dan Fu, Stefano Ermon, Atri Rudra, 和 Christopher Ré. 2022. FlashAttention：快速且内存高效的精确注意力机制。Advances in neural information processing systems, 35:16344-16359.

Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, 和 Luke Zettlemoyer. 2023. QLoRA：量化LLM的有效微调方法。Advances in neural information processing systems, 36:10088-10115.

Yao Fu, Hao Peng, Tushar Khot, 和 Mirella Lapata. 2023. 使用自玩和基于AI反馈的情境学习改进语言模型谈判。arXiv预印本arXiv:2305.10142.

Sérgio Gonçalves, Paulo Cortez, 和 Sérgio Moro. 2018. 一种用于科学摘要句子分类的深度学习方法。In Artificial Neural Networks and Machine Learning-ICANN 2018: 第27届人工神经网络国际会议，希腊罗德岛，2018年10月4日至7日，会议记录，第三部分 27，第479-488页。Springer.

Maarten Grootendorst. 2022. Bertopic：基于类别的TF-IDF过程的神经主题建模。arXiv预印本arXiv:2203.05794.

Wenke Hao, Zhicheng Li, Yuchen Qian, Yuzhuo Wang, 和 Chengzhi Zhang. 2020. ACL FWS-RC：一个关于未来工作的句子识别和分类的数据集。In 2020年ACM/IEEE联合数字图书馆会议论文集，第261-269页。

Noriko Hara, Paul Solomon, Seung-Lye Kim, 和 Diane H Sonnenwald. 2003. 科学合作的一种新兴观点：科学家对合作的看法及影响合作的因素。Journal of the American Society for Information Science and Technology, 54(10):952-965.

Hospice Houngbo 和 Robert E Mercer. 2012. 从科学研究论文中提取方法提及。In COLING 2012会议记录，第1211-1222页。

Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen 等. 2022. LoRA：大型语言模型的低秩适应。ICLR, 1(2): 3.

Yue Hu 和 Xiaojun Wan. 2015. 挖掘和分析科学文章中的未来工作。ArXiv, abs/1507.02140.

Adnan A Hyder, Adrijana Corluka, Peter J Winch, Azza El-Shinnawy, Harith Ghassany, Hossein Malekafzali, Meng-Kin Lim, Joseph Mfutso-Bengo, Elsa Segura, 和 Abdul Ghaffar. 2011. 国家政策制定者发言：研究人员是否给他们提供他们需要的东西？Health policy and planning, 26(1):73-82.

Moksh Jain, Tristan Deleu, Jason Hartford, Cheng-Hao Liu, Alex Hernandez-Garcia, 和 Yoshua Bengio. 2023. 使用GFlowNets进行AI驱动的科学研究。Digital Discovery, 2(3):557-577.

Jacalyn Kelly, Tara Sadeghieh, 和 Khosrow Adeli. 2014. 科学出版物中的同行评审：益处、批评及生存指南。Ejifcc, 25(3):227.

Chin-Yew Lin. 2004. ROUGE：自动摘要评估包。In 文本摘要分支扩展，第74-81页。

Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune, 和 David Ha. 2024. AI科学家：迈向完全自动化的开放式科学发现。arXiv预印本arXiv:2408.06292.

Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang 等. 2023. 自我完善：使用自我反馈进行迭代改进。Advances in Neural Information Processing Systems, 36:46534-46594.

Benjamin S Manning, Kehang Zhu, 和 John J Horton. 2024. 自动化社会科学：语言模型作为科学家和研究对象。技术报告，国家经济研究局。

Huyen Nguyen, Haihua Chen, Lavanya Pobbathi, 和 Junhua Ding. 2024. 文本摘要质量评估方法的比较研究。arXiv预印本arXiv:2407.00747.

David Nicholas, Hamid R Jamali, Anthony Watkinson, Eti Herman, Carol Tenopir, Rachel Volentine, Suzie Allard, 和 Kenneth Levine. 2015. 较年轻的科研人员在决定阅读、引用和发表时是否以不同的方式评估可信度？International Journal of Knowledge Content Development & Technology, 5(2).

Justin C Ortagus, Robert Kelchen, Kelly Rosinger, 和 Nicholas Voorhees. 2020. 美国高等教育中的绩效资助：有意和无意后果的系统性综合。Educational Evaluation and Policy Analysis, 42(4):520-550.

Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray 等. 2022. 使用人类反馈训练语言模型遵循指令。Advances in neural information processing systems, 35:27730-27744.

Kishore Papineni, Salim Roukos, Todd Ward, 和 WeiJing Zhu. 2002. BLEU：一种机器翻译的自动评估方法。In 第40届计算语言学协会年会会议记录，第311-318页。

Baolin Peng, Michel Galley, Pengcheng He, Hao Cheng, Yujia Xie, Yu Hu, Qiuyuan Huang, Lars Liden, Zhou Yu, Weizhu Chen 等. 2023. 检查你的事实并再试一次：使用外部知识和自动化反馈改进大型语言模型。arXiv预印本arXiv:2302.12813.

Biqing Qi, Kaiyan Zhang, Haoxiang Li, Kai Tian, Sihang Zeng, Zhang-Ren Chen, 和 Bowen Zhou. 2023. 大型语言模型是零样本假设提出者。arXiv预印本arXiv:2311.05965.

Yuchen Qian, Zhicheng Li, Wenke Hao, Yuzhuo Wang, 和 Chengzhi Zhang. 2021. 使用未来工作句子探索特定领域不同任务的研究趋势。Proceedings of the Association for Information Science and Technology, 58(1):532-536.

Marissa Radensky, Simra Shahid, Raymond Fok, Pao Siangliulue, Tom Hope, 和 Daniel S Weld. 2024. Scideator：基于研究论文方面重组的人类-LLM科学创意生成。arXiv预印本arXiv:2409.14634.

Chenglei Si, Diyi Yang, 和 Tatsunori Hashimoto. 2024. LLM能否生成新颖的研究想法？一项涉及100多名NLP研究人员的大规模人类研究。arXiv预印本arXiv:2409.04109.

Müge Simsek, Mathijs de Vaan, 和 Arnout van de Rijt. 2024. 授予提案文本是否对资助决策重要？一项实地实验。Scientometrics, 129(5):2521-2532.

Ruoxuan Song, Li Qian 等. 2021. 基于科学论文未来工作的学术创造性概念主题识别。Data Analysis and Knowledge Discovery, 5(5):10-20.

Jacques Suray, Jan H. Klemmer, Juliane Schmüser, 和 Sascha Fahl. 2024. SOUPS中的未来工作如何进行：分析未来工作陈述及其对可用安全性和隐私研究的影响。ArXiv, abs/2405.20785.

Simone Teufel. 2017. “未来工作”部分有目的吗？全球科学计量问题的引用链接和蕴含。In BIRNDL@SIGIR (1)，第7-13页。

Mike Thelwall, Subreena Simrick, Ian Viney, 和 Peter Van den Besselaar. 2023. 什么是研究资金，它如何影响研究，以及它是如何记录的？关键变化维度。Scientometrics, 128(11):6085-6106.

Hanchen Wang, Tianfan Fu, Yuanqi Du, Wenhao Gao, Kexin Huang, Ziming Liu, Payal Chandak, Shengchao Liu, Peter Van Katwyk, Andreea Deac 等. 2023. 人工智能时代的科学发现。Nature, 620(7972):47-60.

Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, 和 Denny Zhou. 2022. 链式思维推理的自一致性改进了语言模型。arXiv预印本arXiv:2203.11171.

Zonglin Yang, Xinya Du, Junxian Li, Jie Zheng, Soujanya Poria, 和 Erik Cambria. 2023. 大型语言模型在自动化开放领域科学假设发现中的应用。arXiv预印本arXiv:2309.02726.

Chengzhi Zhang, Yi Xiang, Wenke Hao, Zhicheng Li, Yuchen Qian, 和 Yuzhuo Wang. 2023. 自动识别和分类特定领域学术文章中的未来工作句子。Journal of Informetrics, 17(1):101373.

Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q Weinberger, 和 Yoav Artzi. 2019. BERTScore：用BERT评估文本生成。arXiv预印本arXiv:1904.09675.

Zihe Zhu, Dongbo Wang, 和 Si Shen. 2019. 从JASIST全文中识别与未来研究相关的句子。Proceedings of the Association for Information Science and Technology, 56(1):858-859.

附录

指标	RAW GT	GPT GT
ROUGE-1	17.50
ROUGE-2	3.11
ROUGE-L	14.22
BScore(f1)	85.91
Jaccard S	11.55
Cosine S	40.53
BLEU	1.29

表6：使用GPT-4o mini从论文中提取的真实数据（RAW GT）与LLM精炼的真实数据（GPT GT）性能对比。

A.1 人工评估

我们从数据集中收集了200个随机样本，并针对每个样本评估了三个关键问题，使用真实数据、LLM生成的文本和反馈后的LLM重新生成的文本。附录中的表10显示，每个问题分为两列（A和B），代表不同类型的文本。具体来说，在Q1中，人工注释者比较了直接从论文（真实数据）中提取的未来工作与通过LLM提取获得的未来工作，评估LLM在不生成新文本的情况下准确提取内容的能力。在Q2中，评估重点在于LLM如何根据输入文本（摘要、引言和结论）生成未来工作，论文提到未来工作（真实数据）。最后，Q3考察了纳入迭代反馈循环的影响，通过比较带和不带额外反馈迭代的LLM + RAG方法的输出。此比较突出了反馈机制如何有助于细化和改进最终输出。

主题	年份
模型改进（31），扩散（13）	2012
图像字幕（54），机器翻译（句法）（12）	2013
情感分析（11）	2014
机器翻译（20），意见挖掘（10）	2015
NLP模型（85）	2016
多语言文本（110）	2017
神经机器翻译（216）	2018
NLP模型（265）	2019
神经机器翻译（49），语言模型中的偏差（LM）（21），文档
生成（21），对话问答（19），对话评估（16），对抗性
攻击和（13），命名实体识别（12）	2020
泛化和鲁棒性（36），多语言神经机器翻译（33），
鲁棒性（28），对话AI评估（26）	2021
机器翻译（63），模型训练和评估（62），跨学科
（30），NLP和事件检测（28），多语言（27），语言模型中的知识增强（24），注释质量（19），教育内容中的总结（14），
资助（13）
LM性能评估（147），性能和数据评估（61），推进
LLMs（66），逻辑和关系（41），模型性能，隐私和模型
防御（28），常识推理和评估方法（19），资助（11）

表7：每年（2012-2024）的主要主题。注意：数字表示这些主题出现的次数。

模型	摘要	引言	相关工作	数据	方法	实验	结论	局限性
余弦相似度			21.09	8.96	14.82	21.79		21.38

表8：每部分与未来工作的平均余弦相似度。（Abs., Intro., RW, Data, Meth., Exp., Con., 和 Lim. 表示摘要、引言、相关工作、数据集、方法论、实验和结果、结论和局限性）

img-1.jpeg

图2：历年未来工作的演变（2012-2024）

数据集	未来工作
2012	自然语言处理和模型改进技术的未来研究
2013	自然语言处理和图像字幕的未来工作
2014	NLP模型开发和情感分析的未来方向
2015	对话文本中的情感分析和争议检测模型
2016	语言建模和机器翻译的未来方向
2017	NLP模型和技术的未来研究方向
2018	多语言文本表示的模型开发未来方向
2019	神经机器翻译和NLP模型的未来研究方向
2020	NLP模型和方法的未来研究方向
2021	神经机器翻译和多尺度学习技术的未来研究方向
2022	评估框架和泛化与鲁棒性的未来工作
2023	NLP模型评估和偏见的未来方向
2024	语言模型研究和性能评估的未来方向

表9：每年的主要未来工作。

问题	A列	B列
Q1	真实数据（使用解析工具从论文中提取的文本）	真实数据（使用LLM提取的文本）
Q2	真实数据未来工作	LLM生成的未来工作
Q3	LLM + RAG生成的未来工作	带反馈的LLM + RAG生成的未来工作

表10：人工评估详情

模型	连贯性	相关性	可读性	总体印象
GPT 40 mini	3.89	4.47	3.38	3.82
Llama 3-80b	4.62	4.37	4.81	4.49

表11：考虑GPT 40 mini与Llama-3 80b作为评估者的性能对比

未来工作标题
委婉语、委婉语’、土耳其语、语言学、多语言
方面性、llm、特征、llms、超参数
基准、管道、超参数、模型输出、准确性
未来、目标、满意度、成就、实现
隐私、数据集、注释、数据、可识别
语义、常识、语义学、注释、模式
AI、移动性、未来、智能、nrrp

表12：ACL 2024论文的主要未来工作主题。

未来工作标题	计数
2024
语言模型研究和性能评估的未来方向	147
推进LLMs和提示工程的未来研究方向	66
模型性能和数据效率的未来研究方向	61
逻辑和关系的未来研究方向	41
隐私和模型防御研究的未来方向	29
常识推理和评估方法的未来方向	19
AI研究资助和支持倡议	11
2023
同时机器翻译研究	63
模型训练和评估的未来方向	62
跨学科方法的未来研究方向	30
NLP和事件检测的未来方向	28
多语言研究和模型评估的未来方向	27
语言模型的知识增强的未来方向	24
注释质量和预测任务的未来改进	19
普通总结和教育内容分析的未来方向	14
AI研究资助和支持计划	13
2021
泛化和鲁棒性的评估框架和未来工作	36
NLP研究和应用的未来方向	35
多语言神经机器翻译研究的未来方向	33
NLP模型的鲁棒性和可学习性	28
对话AI和评估系统的未来方向	26
视觉任务和事件预测的多模态研究的未来方向	19
2020
神经机器翻译和多尺度学习技术的未来研究方向	49
提供文本中未提到未来工作	26
语言模型和文本分析中的偏差的未来研究	21
文档生成和理解的未来研究方向	21
知识库问答和对话QA系统未来方向	19
开放域对话评估和模型开发的未来方向	16
NLP在对抗攻击和反话语生成中的脆弱性和鲁棒性	13
信息提取中的间断命名实体识别和本体对齐	12
2019
NLP模型和方法的未来研究方向	265
文本中的未来工作识别	27
2018
神经机器翻译和NLP模型的未来研究方向	216
文本中的未来工作识别和分析	29
2017
多语言文本表示的模型开发未来方向	110
文本中的未来工作识别和分析	15
2016
NLP模型和技术的未来研究方向	85
提供文本中未识别的未来工作	13
2015
语言建模和机器翻译的未来方向	20
NLP中的情感挖掘和关系建模	10
2014
NLP模型开发和情感分析的未来方向	11
2013
自然语言处理和图像字幕的未来工作	54
基于句法的统计机器翻译改进的未来工作	12
2012
自然语言处理和模型改进的未来研究	31
扩散预测的未来工作	13

表13：每年ACL论文中反复出现的未来工作主题概述，显示每个主题出现的次数。计数表示各种研究论文中提及的频率。

分层未来方向	类别
NLP模型开发改进模型和技术情感分析语言建模和机器翻译多语言文本表示的模型开发改进神经机器翻译（NMT）具有多语言文本表示的NMT 具有多尺度学习技术的NMT 具有多模态性能分析的模型调优具有性能评估的语言模型研究具有多模态性能分析的模型调优语言模型研究和性能评估推进LLMs和提示工程模型性能和数据效率	1
机器翻译和多语言模型语法基础统计机器翻译改进	2
情感分析和关系建模对话文本中的情感分析和争议检测模型 NLP中的情感挖掘和关系建模	3
问答（QA）和对话系统知识库问答和对话QA系统的未来方向开放域对话评估和模型开发的未来方向对话AI和评估系统基于检索的QA和总结	4
NLP中的鲁棒性和脆弱性 NLP在对抗攻击和反话语生成中的脆弱性和鲁棒性评估框架和泛化与鲁棒性的未来工作 NLP模型的鲁棒性和可学习性隐私和模型防御研究的未来方向	5
信息提取和分析信息提取中的间断命名实体识别和本体对齐	6
多模态和视觉任务自然语言处理和图像字幕的未来工作视觉任务和事件预测的未来多模态研究多模态性能分析的未来研究方向	7
偏差、伦理和社会影响语言模型和文本分析中的偏差的未来研究 NLP模型评估和偏差的未来方向	8
文档生成和注释文档生成和理解的未来研究方向注释质量和评估技术的未来工作	9
心理学和AI AI和心理学的未来研究方向和方法扩展	10
AI中的逻辑和关系未来关于逻辑和关系的研究	11
评估方法和指标常识推理和评估方法的未来方向	12
AI研究的支持和资助 AI研究的项目资助和支持	13

表14：分层未来工作。

图3：BERTopic + LLM在生成未来工作标题中的应用。

数据集	连贯性得分	轮廓系数得分
ACL 12	0.63	0.66
ACL 13	0.58	0.38
ACL 14	0.61	0.46
ACL 15	0.63	0.45
ACL 16	0.55	0.47
ACL 17	0.54	0.56
ACL 18	0.53	0.49
ACL 19	0.53	0.64
ACL 20	0.52	0.73
ACL 21	0.57	0.62
ACL 22	0.60	0.53
ACL 23	0.64	0.51
ACL 24	0.59	0.38

表15：每年未来工作的性能。

模型	轮廓系数得分
allenai-specter	0.558131
paraphrase-MiniLM-L6-v2	0.801949
all-mpnet-base-v2	0.732606
all-MiniLM-L6-v2	0.819191
all-MiniLM-L12-v2	0.479191
paraphrase-multilingual-MiniLM-L12-v2	0.815246
paraphrase-MiniLM-L6-v2	0.803524
bert-base-nli-mean-tokens	0.806526
all-distilroberta-v1	0.488876
msmarco-distilbert-dot-v5	0.436424
multi-qa-MiniLM-L6-cos-v1	0.568171

表16：各种句子转换器的性能

说明：您将获得每对的两个文本：一个是机器生成的文本（Machine-Generated Text），另一个是原始或真实文本（Ground Truth）。请仔细阅读两个文本。在审查每个文本后，根据以下标准从1到5分配分数。分数应反映机器生成文本与真实文本相比的质量，其中1表示质量差，5表示卓越质量，某些方面甚至超越真实文本。

评分标准：连贯性和逻辑： 5: 文本异常连贯；思想逻辑清晰且连接良好。 3: 文本连贯但可能偶尔在逻辑或流畅性上有不足。 1: 文本脱节或经常不合逻辑。相关性和准确性： 5: 文本完全与主题相关并在所有呈现的事实上准确无误。 3: 文本总体相关但可能有小的事实错误或轻微偏离主题。 1: 文本经常偏离主题或包含多个事实错误。可读性和风格： 5: 文本吸引人，写得非常好，且风格与真实文本一致。 3: 文本可读但可能缺乏吸引力或存在轻微风格不一致。 1: 文本难以阅读或风格较差。语法正确性： 5: 文本没有语法错误。 3: 文本偶尔有不影响理解的语法错误。 1: 文本频繁有妨碍理解的语法错误。整体印象： 5: 文本质量达到专业作家水平。 3: 文本可接受但需进一步编辑。 1: 文本质量需要大幅修改才能使用。任务：对于每对文本：根据每个标准对机器生成的文本打分，并提供总分（满分5分）。简要说明您的评分理由，突出机器生成文本相对于真实文本观察到的优点和缺点。

示例用法：文本对1：机器生成文本：“The quick brown fox jumps over the lazy dog repeatedly.” 真实文本：“A quick brown fox consistently jumps over the lazy dog.” 评估：连贯性和逻辑：5 相关性和准确性：4 可读性和风格：5 语法正确性：5 整体印象：5 理由：机器生成文本保持了真实文本的核心信息和风格，以连贯且吸引人的方式呈现。措辞上的小差异并未影响整体质量和相关性。

您的任务是为科学文章生成一个精炼的“未来工作”部分。以下是科学文章的部分内容，包括‘摘要’、‘引言’、‘结论’。目标是确保这一部分清楚地概述未来研究方向，而不出现上述问题。请专注于保持连贯性、相关性、可读性、语法正确性和整体质量，确保文本逻辑清晰并与主要主题直接对齐。

我是提供文本并发现了这些问题。首先阅读反馈，并在生成未来工作时尝试改进它们。[LLM反馈]

基于这些细节，请生成全面且合理的未来工作建议，可以扩展研究发现，解决局限性，并提出新的探索途径。未来工作应在100字以内。

图5：将LLM反馈纳入模型。

LLM提取的真实未来工作	LLM生成的未来工作	BS (p)	BS (R)	BS (f1)
未来工作还应包括探索不同超参数对模型性能的影响以及研究将外部知识源纳入模型的潜在好处。此外，研究模型在不同语言和领域的通用性将是未来研究的重要方向。另外，研究模型预测的可解释性并探索提高模型解释性的方法也可能是有价值的进一步研究方向。”	未来工作可以关注探索结合编码器仅和解码器仅语言模型优势的新架构，以改善自然语言处理任务中的语义理解。此外，研究可以调查替代训练方法或提示技术以增强解码器仅模型理解词义的能力。此外，扩展研究以包括其他语言并评估更广泛的语言模型，可以提供对编码器仅和解码器仅架构之间性能差异的更全面理解。研究模型大小和训练数据对语义理解的影响也可能是未来研究的一个有价值的方向。	0.87	0.90	0.88

表17：LLM提取与LLM生成的未来工作对比（注意：BS, p, R, f1分别表示BERTScore，精确率，召回率和F1分数）。

参考：https://arxiv.org/pdf/2503.1656