告别人工标注！大模型自产自销训练数据实现「自我迭代式进化」

最新推荐文章于 2025-03-26 10:28:20 发布

大靠山

最新推荐文章于 2025-03-26 10:28:20 发布

阅读量1k

点赞数 19

文章标签：网络数据分析信息可视化数据挖掘人工智能

本文链接：https://blog.csdn.net/m0_59235245/article/details/146390851

版权

研究探索小型大语言模型 (LLM) 如何通过生成、研究和回答自创的问答对，学习基于强化学习 (Reinforcement Learning) 的智能搜索 (Agentic Search)，从而自主提升研究与推理能力。整个过程均可在单张 RTX 4090 上运行！

本项目基于 Unsloth’s Efficient GRPO code(https://unsloth.ai/blog/r1-reasoning)构建，并新增了函数调用与智能循环的支持。

🚀 主要特性

Llama-8B实现自我引导：Llama-8B 能够从文档中自主生成高质量的问答对，并训练自身以更高效地搜索语料库，解答这些自生成的问题。
自主验证答案准确性：Llama-8B 评估自身答案的正确性，形成自我改进的反馈机制。
GRPO 强化学习：实施GRPO，进一步提升 Llama-8B 在研究、搜索和推理方面的能力。
全自动化的开源工作流：从问题生成、答案研究、验证、嵌入创建到强化学习的每个环节，均依赖开源模型并可在本地完整运行。

📊 实验结果

经过 100 步 GRPO 训练（在单张 RTX 4090 GPU 上运行 1 小时）后，Llama-8B 在研究和回答阿波罗 13 号任务报告相关问题的能力显著提升。

在包含 68 个问题的验证集上，模型的准确率从 23% 提升至 53%，提高了一倍以上。

🔍 示例：自适应搜索优化

在训练初期，模型在使用搜索工具时常犯以下错误：

误用搜索工具，调用格式不正确。
不实际查询语料库，而是凭空编造答案。
直接模拟搜索引擎，生成虚假的搜索结果并自行作答。

然而，随着训练的深入，模型逐步学会了更高效的推理和搜索方法。它开始生成格式正确的查询，基于部分检索结果优化搜索策略，并成功获取准确答案。

以下示例展示了模型经过训练后学到的自适应搜索行为。

示例问题

What was the reason for substituting the backup Command Module Pilot 3 days prior to the Apollo 13 flight?

Step-by-Step Search Process
Query : "Apollo 13 Command Module Pilot substitution"

Outcome: Retrieved operational support details, but no explanation for the substitution.
Agent's Action: Recognized missing information → Refined query.
Query : "Apollo 13 Command Module Pilot substitution reason"

Outcome: Retrieved general mission anomaly details, but still no direct answer.
Agent's Action: Increased query specificity.
Query : "Apollo 13 John 'Jack' Swigert substitution"

Outcome: Found general mission reports, but still lacked a clear reason for substitution.
Agent's Action: Hypothesized illness might be a factor → Refined query accordingly.
Query : "Apollo 13 Jack Swigert illness substitution"

Outcome: Retrieved the exact explanation: "Several days prior to launch, the backup Lunar Module Pilot became sick with measles. Examinations of the prime crew indicated that the Command Module Pilot was not immune to the disease; therefore, the backup Command Module Pilot was substituted.

此示例展示了 Llama 如何通过多轮搜索来找到问题的答案。

此项目的创新在于增加函数调用和代理反馈循环后，实现了使用大模型监督小模型学习，减少了人参与的程度，节省了大量的时间。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述