浅谈国产大模型的过去、现在以及未来

辣卤牛肉面

已于 2024-09-04 17:11:00 修改

阅读量757

点赞数 12

文章标签：人工智能 AIGC 数据挖掘 langchain pdf

于 2024-08-21 14:34:10 首次发布

本文链接：https://blog.csdn.net/2301_76168381/article/details/141393024

版权

随着时间推移，AI与大模型正在肉眼可见的降温。

怎样去衡量一款AI产品是否成功？

这个问题如果放在两年前，很多人给出的答案会集中在AI的狭义领域，AlphaGo、Siri、Google Assistant，或是用于解锁手机的图像识别技术，能够在某个特定的领域完成特定的任务。

但从2023年开始，也就是ChatGPT火了之后，人们对AI的看法发生了一些转变，学习、适应、推理的自主决策的能力，不免让人产生AGI会成为现实的错觉。

所以我们能看到，在ChatGPT发布后的不到两年里，国内就上线了数百个大模型，里面既有互联网大公司，也有各种垂类公司，还有一批跑在风口上的初创企业。

毫无疑问，AI大模型的研发需要投入大量的资金和人才，这也导致了绝大部分初创公司的估值被严重透支，他们在短期内获得了大量融资，后续却无法持续烧钱维持迭代和商业落地，随着投资人信心下降，不免有一些机构选择清仓或撤资。

大浪淘沙，伴随无休止的套壳和再生的游戏，当下市面上能够接触到的模型主要分为两类。一是基础通用大模型，比如文心一言、通义千问、元宝这类大厂产品，它们应用场景广泛，功能包括但不限于文本生成、语言理解、问答系统、摘要提取、机器翻译等。某种程度上，它们可以作为下游任务的基础模型，通过微调或迁移学习，适应不同的应用场景和需求。

其次是行业专用，各类细分赛道的产出，像金山的政务大模型，多家公司的医疗、金融等大模型，应用场景主要集中在各自的专业领域内。例如，医疗大模型可以应用于电子病历分析、疾病预测、药物研发等多个环节；金融大模型则可以应用于风险评估、投资策略制定、客户画像构建等多个方面。

如果仅从数字上看，国产大模型在技术上的确成长很快，根据SuperCLUE的评测结果，国内绝大部分闭源模型已超过GPT-3.5Turbo。但事实上，这样的比较意义并不大，大模型虽然多，技术代差也在缩小，但商业化、差异化但效果并不明显，以至于大多数投资人回归到观望的态度。

前段时间圈子里比较热的几个话题，Kimi母公司月之暗面在2C业务之外，官宣了Kimi企业级API的正式发布，比通用模型有更高等级的数据安全保障和并发速率；智谱AI发布“Z计划”，开始、转型投资人的身份。

纵观五虎里剩下的百川智能、零一万物、MiniMax三家公司，推出的产品也很难打出真正的差异化，C端主要提升听说读写技能，产业端则作为私有数据平台和简化复杂需求的工具。一股劲儿地都在钻技术，较量百万，顶多千万级的日活，但市场一直缺乏能够承载AI的杀手级应用。

这样一来，逐渐聚焦于一个关键议题：尽管我们不断追求更大的数据量、更强的计算能力以及更复杂的模型训练，以期构建出更加智能的大模型，但这一过程中往往忽视了一个至关重要的前提：这些高级模型的有效运用与推进，离不开专业人员的深度参与和专业方法的精准实施。

当我们试图将这些大模型直接应用于具体场景，如新闻资讯平台或金融领域时，面临的挑战便显现出来。比如在面对如抖音、快手等已高度优化用户画像的平台时，大模型似乎并未能带来显著的变革性影响。这并非因为大模型本身不具备潜力，而是其在实际应用中的定制化与精准化需求远未被充分满足。

进一步来讲，如果将大模型应用于传统制造业或低门槛工作领域，同样面临严峻挑战。

过去人们以为，通过大模型的指导，即便是非专业人士也能轻松胜任高技能要求的岗位。然而，现实却远非如此。社会的工作分工与评价体系依然根深蒂固，强调经验积累与行业专业性。这意味着，仅凭大模型的短期培训，很难让一个普通人迅速跨越行业门槛，达到专业水准。

一个无法忽视的问题是，不同企业、不同业务应当如何设定合理且科学的增长标准，以及在缺乏直接参照对象时，如何衡量并规划业务的未来增长。

在观察当前市场上的AI大模型产品时，起初，这些技术可能凭借其新颖性和创新性吸引了大量关注，但随着技术的成熟和市场的饱和，增长动力逐渐减弱。

事实上，许多高估值的产品往往是在某个小众领域进行了深度挖掘和创新。这些问题极具普遍性，横跨了不同企业和业务领域，例如，拼多多通过重塑电商体验，为消费者带来了全新的购物感受；京东则凭借其强大的物流体系，构建了难以复制的供应链壁垒。

对于当前的大模型技术而言，发展方向应当更加注重用户体验和市场需求的结合。当这些技术被嵌入到如WPS这样的办公软件，或是美团这样的服务平台中时，核心问题在于，如何让AI技术更好地服务于用户需求，而不是仅仅停留在表面或浅层次的分析上。

举个例子，用户让AI软件猜测自己想吃什么，它们的确会通过语义分析来理解用户的意图，并给出一些建议或推荐。然而，这些推荐往往停留在较为宽泛的层面，没有真正深入到用户的个性化需求中。

换句话说，因为当前的AI技术还难以完全理解用户的复杂情感和具体需求，只能基于已有的数据和模型进行大致的预测和推荐；另一方面，让AI猜测人的已有目的，这件事本身就很浪费时间和技术资源。

再以翻译为例，假设我们已经能够将翻译精度提升到99%，而市场上的需求仅需要95.6%的准确度。这时，再花费大量资源去将精度从99%提升至99.5%，是否真的有意义？尤其是当这种提升对于大多数用户来说，并无显著差别时。

这里的核心问题是，从商业角度来审视技术的ROI（投资回报率）和ROE（净资产收益率）。在一个技术概念成为风口时，往往过分强调技术的先进性，而忽略了其在实际应用中的价值和可持续性。真正的挑战在于，如何将技术转化为实际的生产力，解决用户的真实需求，而不是简单地堆砌技术。

然而，能看到的却是大量公司在盲目跟风，试图通过增加数据量、提升算力等手段来打造所谓的“大模型”。但这种做法往往忽略了客户成功（CSM）的重要性，如何确保技术能够真正满足客户需求，为客户创造价值？

更为严重的是，许多公司并没有清晰的业务规划和阶段性目标，像无头苍蝇一样四处乱撞，结果往往是资源浪费和失败。大模型公司应该更加聚焦于实际场景的应用和落地，而不是仅仅停留在技术层面的自嗨，这样的认知应该早已共识，只不过问题尚未解决，市场也难有突破性的故事。

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

路线图很大就不一一展示了 （文末领取）
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目，地址、代码、文档等等全都下载共享给大家一起学习！
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。 （文末领取）
在这里插入图片描述

👉640份大模型行业报告（持续更新）👈

💥包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式：

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓