【AI前沿洞察】Andrew Karpathy 谈AI -2024.03.27 红杉资本AI论坛

本文链接：https://blog.csdn.net/ai_gump/article/details/138512740

对于AK哥不太了解的朋友们，AK哥联合创立了OpenAI，是Tesla前AI总监，目前属于离职状态，并且在业务时间也在分享关于AI教育相关内容，其中手搓GPT系列也是爆火全网，可以说是AI工程师的宝藏男孩。

他不仅拥有顶尖的AI学术研究背景，还在学界、工业界有过多年经验，参与主导了许多项目，可以说是对前沿AI最有洞察力的几人之一

完整视频可看B站

【精校】大神Andrej Karpathy最新红杉AI活动演讲问答【中英】

核心观点提取：

1、LLM OS

LLM 操作系统（外设：多模态数据；CPU：transformer 架构 LLM，软件 1.0基建：各种框架）
LLM OS 类比 windows 操作系统：自带应用也支持三方的生态
- Windows 自带一些默认应用：edge 浏览器，但也支持三方 Chrome浏览器；
- OpenAI的 LLM OS 也会自带一些 apps，但也可以自己打造三方的Agents

- 大模型现在的应用就像早期的 iphone app，一开始不好用，后面会越来越好
- 现在不是LLM成熟到一个类似于安卓的状态，，需要花时间去学会使用现有的软件基建

- 闭源： GPT、gemini、Anthropic
- LLaMA 和 Mistral 不是真正的开源，只能算开放权重的模型，比如只给你操作系统的二进制文件，可能可以微调一下，但是从根本上进行调整不太可能
- 真正开源的：llm 360（LLM360 | Open-source LLMs for Transparency, Trust, and Collaborative Research 🚀 真正开源整个 Infrastrcuture，就像可以从源码编译操作系统一样，可以从原始数据训练出来这个模型
- 这些非开源的模型，微调带来的结果是过拟合微调数据的结果，会在其他能力上有所退步；只有真正开源的才可以从训练上加能力
- 可以参考：：

2、Scaling Law

3、现阶段遇到的 LLM 问题

算法侧：diffusion model 扩散模型和 autoregressive model 自回归模型都是一种展示概率分布的模型，但却又很明确的分界线。我们现在也需要多模态，所以在考虑怎么用一个大一统模型或者混合的架构来统一这两个能力
能耗效率：人脑 20W vs LLM 大概 MW 级别；

- 需要让现有的计算架构适应LLM的数据pipeline
- Precision 降低，降低能耗
- Sparsity 离散型，人脑不是每一次思考都并不是需要跑完全连接层的
- 需要架构调整，冯诺依曼架构不够好，数据搬进搬出耗能太高，可以参考：张鹏对谈安克阳萌：GPU 和 Transformer 可能是中间态，机器人+大模型会诞生超级品类

4、公司风格