如何解读 Yann LeCun 5 月 23 日的推文建议学生不要在大模型方向工作？

Yang-ai-cao

已于 2024-06-04 22:57:10 修改

阅读量710

点赞数 4

分类专栏： NLP 深度学习文章标签：人工智能深度学习 nlp 语言模型

于 2024-05-29 14:21:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aaaa_hsjsueu/article/details/139294643

版权

原文："If you are a student interested in building the next generation of AI systems, don't work on LLMs"

链接：https://x.com/ylecun/status/179

当前，LLM（大型语言模型）方向的研究主要有两种模式：一是通过调用API进行实验，使用少量数据，尽管需要自费购买tokens，但由于OpenAI的费用已降低，这部分成本尚可承受；二是调用开源模型，通常大小在7B左右，目前主流模型从llama2切换到llama3 8b，并在此基础上进行微调和改进，这需要一定的显卡资源。尽管lora、qlora等微调技术对显卡要求不高，但成本依然存在，许多实验室甚至无法负担一块4090显卡。此外，RAG（检索增强生成）方向的研究在2023年还集中于修改检索部分，将大模型视为黑盒，而今年则开始注重微调，缺乏实力的研究者难以发表论文。即便单次微调成本可接受，但代码问题会导致时间和资源浪费。因此，在学校中研究大模型并不是一个好的方向。

从企业需求来看，微调技术发展迅速ÿ

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。