如何解读 Yann LeCun 5 月 23 日的推文建议学生不要在大模型方向工作?

原文:"If you are a student interested in building the next generation of AI systems, don't work on LLMs"

链接:https://x.com/ylecun/status/179

当前,LLM(大型语言模型)方向的研究主要有两种模式:一是通过调用API进行实验,使用少量数据,尽管需要自费购买tokens,但由于OpenAI的费用已降低,这部分成本尚可承受;二是调用开源模型,通常大小在7B左右,目前主流模型从llama2切换到llama3 8b,并在此基础上进行微调和改进,这需要一定的显卡资源。尽管lora、qlora等微调技术对显卡要求不高,但成本依然存在,许多实验室甚至无法负担一块4090显卡。此外,RAG(检索增强生成)方向的研究在2023年还集中于修改检索部分,将大模型视为黑盒,而今年则开始注重微调,缺乏实力的研究者难以发表论文。即便单次微调成本可接受,但代码问题会导致时间和资源浪费。因此,在学校中研究大模型并不是一个好的方向。

从企业需求来看,微调技术发展迅速ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值