阿里巴巴集团研究人员推出的ZeroSearch技术,彻底颠覆了人工智能系统搜索信息的训练模式。这项创新框架通过模拟手段,让大型语言模型(LLM)无需借助真实搜索引擎交互,就能自主发展高级搜索功能,成功摆脱对昂贵商业搜索引擎API的依赖。
AI行业长期被两大难题困扰:一是搜索引擎返回文档质量不稳定,二是调用商业搜索引擎API的成本高昂。正如研究人员在arXiv论文中指出,强化学习训练所需的海量搜索请求,会产生巨大API开销,严重制约系统扩展性。为此诞生的ZeroSearch,以轻量级监督式微调将LLM转化为检索模块,结合“基于课程的推出策略”,在训练中逐步降低生成文档质量,充分挖掘LLM在预训练中积累的知识。
经七个问答数据集测试,ZeroSearch性能惊艳,70亿参数的检索模块可与谷歌搜索比肩,140亿参数模块更是实现超越。成本对比同样悬殊:使用谷歌搜索完成约6.4万次查询训练需586.70美元,而四台A100 GPU模拟训练仅需70.80美元,成本直降88%。
这一技术突破标志着AI训练的重大转折,不仅大幅降低初创团队和研究机构的训练成本,更赋予开发者精准把控训练数据的能力。目前相关代码、数据集和预训练模型已开源,随着AI系统走向自给自足,传统搜索引擎在AI发展中的地位或将被重新定义,技术生态也将迎来深刻变革。
只有适应变化、迅速学习新技能的人才才能在未来就业市场中占据优势。