这段时间搞大模型的血和泪

机器学习社区

于 2024-10-03 09:23:57 发布

阅读量145

点赞数 3

分类专栏：大模型文章标签：算法深度学习人工智能多模态大模型大模型算法工程师

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59596990/article/details/142688968

版权

大模型专栏收录该内容

211 篇文章 120 订阅

订阅专栏

最近这一两周不少互联网公司都已经开始秋招提前批面试了。

不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。

最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

总结如下：

《AIGC 面试宝典》圈粉无数！
《大模型面试宝典》(2024版) 发布！

喜欢本文记得收藏、关注、点赞。

李沐大神最近分享了很多，我来舔着脸跟一笔，写下近段时间研发上面的血泪史：

按照目前的发展，大部分实验室在LLM上很难搞到百亿以上的参数量了，对更大模型（dense或者MoE）也只能说望而却步了；我们烧尽个人腰包和经费也只能勉强碰到500多亿的MoE，并且代价是到明年就是穷光蛋一个。
实际落地里面，不可能指望单独一个LLM放在那儿完成任务，不论是多强的模型也不行，尊重工程、产业和商业逻辑。
模型本身的迭代重度依赖数据，数据的迭代也需要依靠肉眼和拍脑袋。从模型结构上基本上是Transformer（+少量mamba、rmkv等，虽然我们没试过），这个点我们反正没资源去纠结了，然后就是玄学N件套比如调参和babysitting。
由于单次实验成本过高，半自动化、自动化评测都不能全信，叠加主观评测的话导致sop严重滞后，所以再留下来了一系列的玄学，中间未解之谜根本没有资源探索。比如说我们经常出现：15天前训练到xxxx个step的那个模型效果是最好的，而且数据和模型版本管理基本混乱，只能靠时间戳+锁死评测关口，结果至上。
和硬件的绑定是下一步关键：一方面，供给侧上如果有更强的ASIC来支撑，那训练和推理的成本会进一步降低，探索空间也会扩大；另外一方面，输出侧和硬件绑定是未来（目前具身智能暂时没法用大模型），以及各种可穿戴设备（例如rayban+meta的尝试）。
LLM输入侧会进一步扩展到其他模态；例如VLM/VLA输入包含图像和视频信息，我们TableGPT是搞那些结构化数据（包括db、传感器数据etc），还有语音等等。
LLM输出侧的扩展是未来啊，除了输出语言、代码、思维步骤，还需要对接各类硬件设备的接口、SDK等等，这里的稳定性和工程加工兜底一定是短期内关键中的关键。
安全性对齐，或者大模型输出"不出框"的对齐工作，我还是看好那些新的东西，比如说世界模型、Verifier啥的。

机器学习社区

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。