这段时间搞大模型的血和泪

最近这一两周不少互联网公司都已经开始秋招提前批面试了。

不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。

最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。

总结如下:

《AIGC 面试宝典》圈粉无数!
《大模型面试宝典》(2024版) 发布!

喜欢本文记得收藏、关注、点赞。


李沐大神最近分享了很多,我来舔着脸跟一笔,写下近段时间研发上面的血泪史:

  1. 按照目前的发展,大部分实验室在LLM上很难搞到百亿以上的参数量了,对更大模型(dense或者MoE)也只能说望而却步了;我们烧尽个人腰包和经费也只能勉强碰到500多亿的MoE,并且代价是到明年就是穷光蛋一个。

  2. 实际落地里面,不可能指望单独一个LLM放在那儿完成任务,不论是多强的模型也不行,尊重工程、产业和商业逻辑。

  3. 模型本身的迭代重度依赖数据,数据的迭代也需要依靠肉眼和拍脑袋。从模型结构上基本上是Transformer(+少量mamba、rmkv等,虽然我们没试过),这个点我们反正没资源去纠结了,然后就是玄学N件套比如调参和babysitting。

  4. 由于单次实验成本过高,半自动化、自动化评测都不能全信,叠加主观评测的话导致sop严重滞后,所以再留下来了一系列的玄学,中间未解之谜根本没有资源探索。比如说我们经常出现:15天前训练到xxxx个step的那个模型效果是最好的,而且数据和模型版本管理基本混乱,只能靠时间戳+锁死评测关口,结果至上。

  5. 和硬件的绑定是下一步关键:一方面,供给侧上如果有更强的ASIC来支撑,那训练和推理的成本会进一步降低,探索空间也会扩大;另外一方面,输出侧和硬件绑定是未来(目前具身智能暂时没法用大模型),以及各种可穿戴设备(例如rayban+meta的尝试)。

  6. LLM输入侧会进一步扩展到其他模态;例如VLM/VLA输入包含图像和视频信息,我们TableGPT是搞那些结构化数据(包括db、传感器数据etc),还有语音等等。

  7. LLM输出侧的扩展是未来啊,除了输出语言、代码、思维步骤,还需要对接各类硬件设备的接口、SDK等等,这里的稳定性和工程加工兜底一定是短期内关键中的关键。

  8. 安全性对齐,或者大模型输出"不出框"的对齐工作,我还是看好那些新的东西,比如说世界模型、Verifier啥的。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值