从目前国内LLM模型公司八卦谈起

前言

我个人不是喜欢打听这些公司八卦的人,前些年移动互联网时代就已经有太多这样的小道消息,但最终都没有没什么用。重要的信息迟早会变成公开,最多晚几个月而已,又不是要考虑抢时间窗口投这些公司,花时间去探究ROI不高。

今天看到两个评论六小虎的消息,信息都甩脸上了,内容也有点意思。就简单通过猜测补全一些信息,整理一下供后续讨论。

所有信息都基于别人爆料和公开信息再加一些猜测,不少猜测来源于群友贡献。

爆料1

[Orange AI 的 8 月小结] 中提到:

大模型6小虎的情况,略显悲观:

小虎一号,广进计划后,人数降到500人,扩张结束,轻装上阵,冲刺上市。

小虎二号,预训练不做了,C端也不做了,B端也不赚钱,暂时迷茫。

小虎三号,聚焦重点业务,锁 HC 了。

小虎四号,继续保持静默状态。

小虎五号,从繁华世界进入静默状态。

小虎六号,继续扩张,逆势而行,至少两个朋友拿到了他们的 offer。

橘子汽水铺

总结一下群里的讨论结果,大概是:

  • 一号是智谱,人员规模最大,也是最接近于能上市的。

  • 二号是零一万物,近期算法联创跑路,又传言说产品团队也跑路了,大概符合。

  • 三号是百川,百川做医疗的执念很深,在这几家里也算是难得有能说得清楚的“重点”业务了。

  • 四号是Minimax,排除法,Minimax在过去半年确实很低调了。

  • 五号是月之暗面,繁华世界,还转入静默,也只有moonshot符合了。

  • 六号是阶跃星辰,从行业人员流动来看确实是在扩张。

(以上仅为猜测,如有张冠李戴,请在评论区指出。)

爆料2

AI暴躁吐槽君

https://web.okjike.com/originalPost/66d51fa1b00a43e91092d49e

[1] 一个产品团队内斗没人决策;

[2] 一个海外惨败全砍了,国内产品火了一波但被字节封死;

[3] 一个海外产品还行,然后产品团队直接出走自己创业去了;

[4] 一个根本不敢做 2c产品靠别人来装饰自己生态的,

[5] 一个挖了一堆字节腾讯的人来抄别人尾气的,

[6] 还有一个我懒得讲。

AI暴躁吐槽君

这个要难猜一些,总结一下群里的讨论结果,大概是:

  • [1]是Minimax,要说产品团队能内斗的规模,大概也没几个符合

  • [2]是月之暗面,海外做了Ohai、Noisee,kimi国内火了一波。

  • [3]是零一万物,还是与前面提到的产品团队流失有关。

  • [4]是智谱,在2C产品上除了chatbot未见其他。

  • [5]是阶跃

  • [6]是百川,确实搞医疗也没啥能在2C讲的。

猜这个需要的八卦信息更多,我自己对此更不确定,仅供参考。

不得不说这个暴躁吐槽君的发言真的很符合它的名字……

关于其他玩家

六小虎只是投资圈的叫法,实际上国内活跃的还有几个:

  • 深度求索DeepSeek

  • 商汤

  • 面壁(还在搞端侧模型)

DeepSeek还没有看到产品化想法,目前还比较专心搞模型和尝试模型2B。

商汤动作相对于其他家是有些慢的,在很多人视野之外,但它有一些模型还是没那么差的。

面壁已经基本算放弃了10B以上模型,专心搞端侧规模的模型了,这个路其实不算错,端侧没有自研能力的厂家是需要跟他合作的。

非创业公司还有:

  • 阿里巴巴 Qwen系列模型

  • 字节 Doubao系列模型

  • 百度 ERNIE系列模型

  • 腾讯 hunyuan系列模型

  • 讯飞 星火系列模型

个人评论

总体

从国内来看,基座模型的创业公司已经一片萧条,即使不看上述爆料,大家也能感觉一二。也就是阶跃相对后发,目前投入还大一些。

而大厂的模型在上一轮中其实算相对落后的:

  • 百度在去年文心4之后就再没大的动作(其实最近开始推出ERNIE-4.0-Turbo了,性价比还可以)

  • 阿里的Qwen开源和闭源就一直是两条线,闭源落后于开源,不过最近已经在融合了,qwen-plus-0806明显就是融合两边能力之后的代表。

  • 字节在5月才把模型改名为Doubao系列,正式发布一版本,目前主要还是卡位高性价比模型,最近也有新闻爆料内部正在大模型方面重组。

  • 腾讯的LLM一直给人以掉队的感觉,但其实过去半年进步还是明显的,有兴趣的同学可以试试hunyuan-pro

  • (不算大厂的)讯飞已经显露疲态

创业公司大多原地踏步,而2024下半年大厂的大模型其实是难得的追赶期,闭源追赶国内第一梯队水平,重新调整和整合资源。

海外 与 主力模型价格战

切换到海外来看,也并不算太乐观:

  • OpenAI发布缓慢,而且最近还公开表明会受到美国安全的监管,未来发布只会更慢。

  • Google Gemini最近很活跃,小版本不断,并且在自己的long context方面已经领先半年了,模型能力也算追上gpt4o。

  • Anthropic的claude-3.5-sonnet已经成功占领的全球最好编程模型的心智生态位,但其他方面的综合能力也未显著超过gpt4o级别。不知道claude-3.5-opus能给我们什么样的答卷,这可能是全球唯一计划发布的最大规模、最高质量的LLM模型了。

海外目前第一梯队也是几乎原地踏步(除了claude-3.5-sonnet),剩下大家一方面在补全feature上的短板,一方面开始了主力模型的性价比战争

我目前觉得全球范围内输入token价格在$5/M token以上的模型都不值得用了,换算到国内大概是35RMB左右。

国内可以预见也会开始主力模型的性价比战争,目前智谱已经在紧跟gpt4o的降价,把最强模型降价50%到50RMB,百度的ERNIE-4.0-Turbo(30RMB)也是歪打正着。但这过程中应该也会有些玩家跟不上而掉队。

转型时期

海外没有支撑信心的头部玩家,内部也没有看到很有希望的技术方向,产品方向则不好不坏吧,没有Super App,但也不是一无是处。

越来越多的团队开始没有足够的信念支持去继续烧钱给炼丹人员的试错买单了,其实暂时放弃搞超GPT4规模的模型我觉得未必是错的。毕竟国内即使是大模型公司,融到的钱也没有太多发子弹,我也不觉得简单堆模型规模就是短期最好的路线。

不过在这个过程中之前狂奔时留下的问题却开始显露:

  • 现在的人员开始流失,之前的高期望高投入无法维持,核心员工自己没有太多期望,也很难满足公司后续的产出要求。

  • 基于模型能力增强的共识崩溃,然后大家思路各不相同,如果不能靠钱和公司创始人的能力把大家维持在一个组织内,就会出现基于共识崩溃带来的团队人员重组。

  • 缓慢的大厂抓住时机接收有经验的人,并能够追上先发的创业团队。

  • 后续不是简单靠模型规模、炼丹技巧、训练infra来scale,需要的核心能力正在从模型往规模化的合成数据和其他方面转移,公司的主动换血在哪里都不是一个简单的事,转型期经常结果是被动换血。

虽然说创业公司面对了新一轮危机,但我觉得这也是让大家能够重新思考自己的战略方向的时间。今天正好听到《乱翻书》的播客:《别拿这轮AI创业跟移动互联网比,目前还不配》

https://www.xiaoyuzhoufm.com/episode/66b0e3b533ddcbb53c7e0b88

里面就提到这一轮AI模型公司这么快就出现定位非常一样其实是很有问题的,现在这一个共识目标在崩溃,可以让大家出现分化。

如何解决之前融资过高给后续战略带来的掣肘,以及后面如何能够低成本尝试多种方向成为创始人要面对的问题了。对于这些公司来讲,最差的未来就是内部没光环的员工都跑出去搞低成本创业,而历史研发的债务都留在公司壳子内。

巨树倒下之后,原地才能孵化出森林,对LLM应用生态来说,这很可能是件好事。

即使是现在出现人员已经流失殆尽的大模型公司壳子,我也不觉得它就已经毫无价值。只要现金还没烧完,那么制约公司可能性的就只有创始人的视野和战略。

《只有偏执狂才能生存》中有个著名的故事:安迪·格罗夫(Andy Grove)和戈登·摩尔(Gordon Moore)在英特尔面临危机时进行的一次假设讨论,如果自己都已经被解雇,新来的CEO会做什么?

现在的情况也大体类似,搞清楚现状,抛弃过去的惯性,换一个别人的视角有时候答案并不难想到。不过这确实很难,没有被逼迫到一定程度人是很难转变的。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值