小模型的春天来了？未来AI或将“大小通吃“ | 让GPT等大模型“减重“90%，依然能准确理解你想搜什么_a comprehensive survey of small language models in-CSDN博客

本文链接：https://blog.csdn.net/m0_59164520/article/details/143751020

大模型领域的发展日新月异，每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文：

1、小模型的春天来了？未来AI或将"大小通吃"

2、让GPT等大模型"减重"90%，依然能准确理解你想搜什么

1、小模型的春天来了？未来AI或将"大小通吃"

在这里插入图片描述

随着ChatGPT等大语言模型的崛起，一个有趣的现象正在AI领域发生：体型"娇小"的小语言模型（SLM）正悄然走红。在Hugging Face社区，这些"小个子"模型的下载量竟然超过了它们的"大块头"兄弟，这是为什么呢？

答案很简单：大模型虽然能力强，但"胃口"也大。以Llama 3.1（405B）为例，光是存储就需要202.5GB显存，在手机上运行100个token需要84秒，这对于很多实际应用场景来说简直是"太重"了。相比之下，小语言模型就像"轻量级拳手"，虽然参数量不到10亿，但在特定领域的表现可以与大模型相媲美。

更妙的是，小语言模型还有几个独特优势：首先，它能在本地设备上运行，既保护隐私又避免网络延迟；其次，训练和调整成本低，特别适合针对特定领域进行优化；最后，它的响应速度快，非常适合需要实时反应的应用场景。

近期研究表明，通过量化训练、知识蒸馏等技术优化，小语言模型的能力还可以进一步提升。一些研究甚至探索了让大小模型协同工作的方案，这意味着未来的AI世界可能不是"非大即小"，而是"大小通吃"，让每个场景都能找到最合适的解决方案。

在这里插入图片描述

论文标题：A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness

论文链接：https://arxiv.org/abs/2411.03350

2、让GPT等大模型"减重"90%，依然能准确理解你想搜什么

人工智能领域又有重大突破！研究人员成功将GPT这样的大语言模型"浓缩"成BERT这样的小模型，让搜索引擎既能保持智能，又能大幅降低成本。这项技术已经在2024年2月成功应用到了某商业搜索引擎中。

想象一下，现在的搜索引擎就像一个"资深导购"，需要在茫茫商品中帮你找到最合适的那个。GPT等大语言模型虽然"智商"很高，能准确理解用户需求，但"体型"太大，"消耗"太多，不适合直接用在搜索引擎中。研究人员通过一种叫做"DisRanker"的技术，成功将大模型的"智慧"转移到了更"苗条"的BERT模型中。

这个过程就像是"高手带徒弟"：首先让大模型通过分析用户的点击行为来学习搜索专业知识，然后再用特殊的训练方法，让小模型BERT"复制"大模型的排序能力。最妙的是，研究人员采用了"双保险"的训练方案，不仅让小模型学习具体的打分标准，还特别注重保持不同搜索结果之间的相对排名关系，确保转移后的效果依然出色。

这项技术的成功，不仅让搜索引擎变得更聪明，还大大降低了运营成本。更重要的是，它为人工智能技术的实际应用开辟了新思路：通过"化繁为简"，让强大但笨重的AI技术变得更实用、更普及。

在这里插入图片描述

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述