无关技术细节,聊聊这两年从事大语言模型的工作感悟

作者:ybq
原文:https://zhuanlan.zhihu.com/p/715607861

导读

本文作者深刻反思了自己在这两年来从事大语言模型(LLM)工作中的感悟,由衷地分享了技术由于变革带来的冲击,同时也充分肯定了 LLM 在提升个人生产力和改变工作方式方面的巨大潜力。作者以生动的例子说明了在这个快速发展的技术时代,每个人都被拉到了同一起跑线,并鼓励同行抓住这一难得的学习和提升自我的机会。本文不仅适合正在探索LLM的技术人员阅读,也能为广泛的从业者带来启发和思考,希望能为大家带来一点小小的触动。

开篇

我个人对 llm 是一种很复杂的态度。毕竟,它真的击碎了我 2023 年之前所有的技术积累,以前在 nlp 苦心钻研的训练经验、模型结构、不同任务类型的不同处理技巧,好像在 ChatGPT 面前显得一文不值。

不过,事情都有两面性。与我的技术一起被击碎的,还有我那一潭死水的工作内容。我不再是特征工程师 —— “花了几个月的时间,就只为了构造某个能力的数据特征,然后想办法加入到模型网络中”。当领导又想让模型有一个新的能力怎么办,重复这个特征构造的过程,下一个季度的 OKR 也就制定完毕了。我一点都不认为这样的工作节奏能带给我自己、带给我的公司任何有意义的内容。

因此,作为一个曾经研究对话系统的 nlp 码农,即使我过去的知识和工作经验极速贬值,我也认可 llm:认可它提高了程序员 code 的效率,认可它创造了新的研究范式,认可它给我的工作内容注入新的活力,认可它掀起了全民狂欢的技术浪潮!

llm 是生产力工具

不管有多少人抨击 ChatGPT 的技术路线,也不管 ChatGPT 未来会不会真的取代我程序员的工作,一个毋庸置疑的事实是:ChatGPT 是当今不可或缺的强大生产力工具。

不会前端的我敢答应领导说我会给个简单 demo,而不是像以前那样说“我不确定 Django 能不能做这个“;没学过 go 语言的我敢直接写用于上线的代码;记不住的正则命令我不需要再搜了;学不会的 pandas 终于不用再学了;shell 语言的冷门命令也能信手拈来了——这些都是 ChatGPT 带给我的自信。

不仅是程序员,只要是文本领域,ChatGPT 就都已经改变了工作方式。它写出的新闻稿、小说不能用?那就让他写十篇你选一篇,或者是让它写个大纲自己再修改下。也许模型在创作任务的效果永远超不过人,但架不住模型可以批量生产、以量取胜啊。

在我眼里,不承认 ChatGPT 效果的人只有一种:极度的懒人,只接受它给你一个百分之百的可用方案!明明模型已经帮我们做了 90% 的工作了,已经十分接近最终成果,我们只需要再加上自己的筛选或简单修改,就可以完工了,难道就因为这 10% 的工作不想自己亲手做,所以选择自己从零开始做吗?我实在难以理解这种行为。

卖 ChatGPT 账号的、调戏 ChatGPT 然后做成视频的、使用 ChatGPT 生图的、利用 ChatGPT 大量生产文章的……很多人已经赚到了钱,不会用 ChatGPT 提高生产效率的,真的会最先被淘汰!

llm 把所有人拉到了同一起跑线

2023 年之前,没有几个人用过 megatron、deepspeed,没有几个人研究过 DPO、PPO、MOE,没有几个人知道 reward_model 怎么训,也没有几个方向的数据 piepeline 是需要花大价钱清洗才能运转的,就连“sft 数据要追求质量而不是数量”也是过了半年才达成共识的。在这个新的技术范式之下,我一个新人可以和工作十年的 nlp 组长进行激烈辩论,我一个小白可以告知苏剑林这样的大佬我对 rope 的认知和实验结果。

去年,我最喜欢说的一句话就是:“都是2023年开始学的,谁又能比谁能强多少呢?”。今年这句话依然生效,只不过同时我也意识到了,2023年已经在逐渐远去,凭借着天赋、财力、努力,deepseek 与 qwen2 团队的同学很明显已经开始和我们拉开距离了。每个 llm 的从业者都要有比去年更大的忧患意识:好不容易回到同一起跑线,怎么能这么轻易再次被拉开?

我们的公司可以做不过 deepseek,但是我们要努力让自己的认知和能力不要被他们甩开太远!

llm 带来了黄金的技术时代

公司愿意花钱去买卡租卡来让我实践学习,领导看见我工作时间读论文会感到满意,同事之间每天都在讨论新的 idea 或者是 Meta / OpenAI / Google 的新技术报告。我不得不说,这样的工作氛围,在 ChatGPT 出现之前,我从来没有遇到过。

可惜的是,如今大部分的公司开始拥抱应用,琐碎杂活再次多起来了。因此,如果真的感觉工作太忙有些力不从心,我从一个打工人的视角出发,真的建议大家可以利用周末多学学习跑跑实验。想一下吧,公司租着 4W / 月(1机8卡,粗略估计)的机器,来培养我们的认知,我想不到比这两年更适合提升自我技术的时机啦。

这种黄金时代在“人均只有十年的程序员生涯”中,应该是很难再有了!

llm 是泡沫?

回归正题,llm 会是一场泡沫吗?我不太理解这个问题为什么会被反复拿出来提问。这个答案对我们程序员来说真的重要吗?它是不是泡沫又能怎么样呢?毕竟,我既不在乎 AIGC 会通往何方,也不在乎 llm 是不是一条正确的技术路线,我只想在这场 llm 浪潮中,向我的组长、领导、未来的面试官证明一件事:我愿意去研究最新的技术方向,我有能力去复现最新的技术成果,仅此而已!

当 Google 再提出一个新的技术范式,难道各大公司会因为曾经研究过 llm 就不愿意招我们了吗?他们一定还是会选择“ llm 工作做的最好的那群人”,来组建新的研究团队去跟随新的前沿技术。

所以,llm 是泡沫吗?这是企业家们考虑的问题吧,程序员无需多想,我们只需享受这场技术革新的盛宴。

写在最后

我想再额外分享一个观点:在 llm 这个赛道,真的没必要羡慕别人的工作,做好自己的工作即可。

举个例子,文本工作的同学天天在想:

  • 做 pretrain 的觉着自己的工作就是爬数据和洗数据、亦或者是和工程一样无休止的优化训练框架;
  • 做通用 sft 的觉着跷跷板问题根本无法解决,觉着评测集根本反应不出模型能力,羡慕领域模型可以不在乎其他能力;
  • 做领域 sft 的又觉着自己没任何技术含量,想去解决跷跷板问题,想去训 reward_model;
  • 做 rlhf 的觉着自己根本拿不到任何收益,动不动就训练崩了,远不如 sft 的洗洗数据就能提很多点。

图像工作的同学则天天在想:

  • 做 stable difusion 的认为多模态才是未来的方向;
  • 做图像文本多模态的认为 sora 太过于惊艳,一定是 AIGC 的未来;
  • 做 sora 的又觉着老板脑子有问题才会相信 OpenAI 画的技术大饼。

说实话,没必要抱怨自己的工作内容,我们有卡用,我们就领先了大多数的同行。即使是当下最具含金量的“pretrain / scaling law”工作,未来也可能在求职时一文不值,毕竟难道曾经有公司招 nlp 方向的人要求会训出一个 BERT 吗?以应用为导向会是 llm 的必由之路。

在这场 AIGC 的浪潮下,工作没有高下之分,眼下的工作大概率都会像 BERT 一样成为时代的眼泪。我们只需要做好当下,培养自己鉴别论文价值的能力、复现开源项目的能力、debug 代码的能力,坐等真正的“AIGC”出现即可。

最后,对于没卡的同学,我这里还是建议多去找实习,读再多的论文,刷再多的技术文章,也不如一次 debug 多机通讯报错带来的认知深刻~~~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值