一文带你了解大语言模型LLM的过去、现在及未来

作者:【猥琐发育的】

公众号:【DarkMythAI】

 

一文带你了解大语言模型LLM的过去、现在及未来icon-default.png?t=N7T8https://mp.weixin.qq.com/s?__biz=MzkxNzc0MzQyMA==&mid=2247483729&idx=1&sn=f2d4c9e04af1d02d17ccde576f9cf833&chksm=c1bab302f6cd3a1490bd065380ad470fbad8320165cdfa401eb4d38c409df94f2a7febec7d4e&token=1341609827&lang=zh_CN#rd

引言

在人工智能领域,大型语言模型(LLM)不仅推动了自然语言处理(NLP)的技术进步,还在多个科学和商业领域中展示了其巨大的潜力。从基本的对话模拟到复杂的问题解决,LLM的发展是AI领域中一场真正的革命。

起源与技术演进

LLM的历史可以追溯到20世纪中叶的早期计算机程序,如ELIZA[1]和PARRY[2],这些程序通过模拟对话来模拟人类交流的基础。然而,这些系统大多是基于手工制定的规则,因此它们只能在受限的环境中发挥作用。随着时间的推移,特别是自2003年bengio等人提出使用神经网络来学习单词表示以来[3],LLM开始以其强大的语言理解和生成能力,重新定义信息处理。

在20世纪90年代末至21世纪初,随着计算能力的提升和数据量的增加,神经网络开始在NLP领域得到广泛应用。递归神经网络RNN[4]由于其在序列数据处理中的优势,成为了处理语言相关任务的重要工具。然而,RNN在处理长序列时存在梯度消失和爆炸的问题,这限制了其在更复杂语言模型中的应用。

为了解决这一问题,1997年Hochreiter等人提出了长短期记忆网络LSTM[5]。LSTM通过引入门控机制,有效地控制信息的流入和流出,极大地改善了模型在长序列数据处理上的性能。此后,门控循环单元GRU[6]作为LSTM的一个变体,以更简单的结构实现了类似的功能,进一步推动了NLP技术的发展。

到了2017年,谷歌的AI团队提出的Transformer模型彻底改变了NLP的研究方向[7]。Transformer摒弃了传统的循环结构,采用了自注意力机制来处理序列数据,这使得模型能够并行处理数据并显著提高了训练速度。此外,Transformer的多头注意力机制使得模型能够同时关注序列中的多个位置,极大地提高了对语境的敏感度和处理复杂语言结构的能力。在人工智能的发展史上,Transformer技术无疑是一次革命性的突破。它不仅改变了机器学习模型处理数据的方式,更为NLP领域带来了前所未有的进步。

以上技术的发展为大型语言模型如BERT和GPT的出现奠定了基础,这些模型通过在大规模数据集上进行预训练,展示了在多种语言任务上的卓越性能。这些模型不仅能够生成连贯的文本,还能理解复杂的语言结构和含义,从而在翻译、摘要生成、情感分析等多个NLP领域取得了突破性进展。

LLM的技术突破

LLM的技术革命是建立在Transformer架构的基础之上的。2018年,谷歌的AI团队发布了BERT[8],标志着预训练语言模型的到来,为NLP领域带来了革命性的进步,使得模型能够在各种下游任务中表现出显著的性能提升。与原始的Transformer架构相比,BERT采用了其编码器部分,并通过引入双向训练方式,即在预训练过程中同时考虑文本的左侧和右侧上下文,克服了之前单向语言模型的局限性。

如下图所示,BERT包含两个阶段,即预训练pre-training和微调fine-tuning。预训练是BERT原理的核心,在预训练阶段,BERT从大量无标注文本中学习语言知识。而在微调阶段,BERT利用下游任务标记好的数据进行有监督学习,并对预训练阶段的参数进行微调。

同年,OpenAI发布了GPT-1模型,采用12个Transformer解码器部分进行无监督预训练,参数量达到1.1亿[9]。与谷歌不同,OpenAI的目标是打造一个能够解决更广泛问题的通用强人工智能,其重点在于生成任务[10]。GPT-1架构如下:

Transformer最初设计是为了解决机器翻译问题,BERT继承了这种思想,并通过微调已预训练的模型,强化了模型在各NLP领域的泛化能力。虽然三代GPT模型的文献引用量加起来也不及BERT的一半,但每代GPT模型在参数量和能力上的增长却是爆炸式的,堪称了“越大越好”。相比之下,谷歌作为LLM领域的先驱,却未能像OpenAI那样迅速采取行动,从而错失了重要机遇。

随后,OpenAI于2019年2月发布了GPT-2模型,2020年5月发布了GPT-3,并在2022年12月推出了ChatGPT3.5。2023年3月,OpenAI发布了具备多模态能力的GPT-4,进一步拓展了模型的应用范围。

AI元年与LLM的多模态发展

2023年被广泛称为人工智能的“AI元年”,这一年标志着LLM技术的飞速发展和多模态学习的崛起。复旦大学于2月20日发布了类ChatGPT的LLM应用MOSS,得名于电影《流浪地球2》[11],标志着中国在全球LLM竞争中的重要一步。紧接着,3月中旬,OpenAI推出了GPT-4,而百度则发布了文心一言,各大科技公司纷纷加速推出自家的LLM,竞争在通用及垂直领域的AI技术领先地位,这一阶段被称为“百模大战”。

4月15日,阿里巴巴测试了通义千问。在5月的谷歌I/O大会上,谷歌发布了能够接受100多种语言训练的大模型PaLM2[12]。随后,国内外互联网巨头陆续加入竞争潮流。到了下半年,OpenAI在9月26日推出GPT-4V,此举不仅加剧了生成式LLM的竞争,还标志着多模态能力的竞争进入新阶段。多模态能力使得模型不仅能处理文本,还能同时处理图像、声音等多种数据类型,极大地丰富了人机交互方式。例如,百度、科大讯飞、腾讯均提升了其模型的多模态处理能力,智子引擎推出了多模态元乘象Chatimg3.0,而谷歌则推出了多模态Gemini1.0。

目前,多模态已经成为LLM发展的前沿趋势。尽管国内开发出可以与ChatGPT相媲美的通用LLM的可能性较低,但观察可以发现,国内开发者善于在特定垂直领域寻找切入点[13]。例如,3D数字人模型[14]、BloombergGPT金融LLM[15]、华佗中文医学模型[16]等,都是在其各自领域内的突破和应用,显示出国内LLM在细分领域的独特优势和发展潜力。

未来展望

随着人工智能技术的快速进展,大型语言模型(LLM)的未来发展展现出多样化和专业化的特征。以下是未来LLM技术的几个关键发展方向: 

  • 多模态模型的深度整合与创新:随着GPT-4等模型展示其处理多种数据类型的能力,未来的LLM将更加重视深度整合多种感官信息,以提高跨模态理解能力。
  • 私有化与个性化模型的定制化发展:为了满足企业和个人在数据隐私和安全性方面的高标准需求,私有化和个性化的模型将逐渐普及,提供针对性的服务,满足特定的业务要求和个人偏好。
  • 长文本处理能力的提升:针对长文本的处理能力将成为LLM的重点发展方向,如GPT-4o Long等模型将能够更有效地处理和生成长篇内容。
  • 知识蒸馏与模型压缩:知识蒸馏和模型压缩技术如gpt3.5-turbo和gpt-4o-mini将广泛应用,这些技术不仅降低了模型的资源需求,还保持了良好的性能,使得AI技术更加易于普及。
  • 微型语言模型的开发:未来将出现更多微型语言模型,如Qwen-1.8B和TinyLlama,这些模型在资源消耗较低的同时,提供有效的语言处理能力,特别适合于移动设备和边缘计算场景。
  • 云算力的扩展应用:云算力提供支持模型训练和部署的计算资源,对LLM发展愈发重要。对预算有限的用户而言,云算力因其成本效益而特别有吸引力,允许他们以较低成本访问高级计算能力,从而降低了技术采纳的门槛。
  • 儿童陪伴模型的兴起:最近的市场动向所示,儿童陪伴模型正快速成为AI应用的新热点,这类模型能够提供教育和娱乐的互动体验,帮助儿童在安全的环境中学习和成长[17]。

参考资料

[1]  Weizenbaum, J. (1966). ELIZA—a computer program for the study of natural language communication between man and machine. Communications of the ACM,9(1),36-45.

[2]  Collby,K. M. (1975). Artificial paranoia: a computer simulation of paranoid process.

[3]   Bengio, Y., Ducharme, R., & Vincent,P. (2000). A neural probabilistic language model. Advances in neural information processing systems, 13.

[4]  Elman, J. L. (1990). Finding structure in time. Cognitive science,14(2) 179-211.

[5]   Schmidhuber, J., & Hochreiter, S. (1997). Long short-term memory. Neural Comput, 9(8), 1735-1780.

[6]   Cho, K. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078.

[7]  Vaswani, A. (2017). Attention is all you need. Advances in Neural Information Processing Systems.

[8]   Devlin, J. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

[9]   Radford, A. (2018). Improving language understanding by generative pre-training.

[10]   GPT系列论文精读-GPT1:http://t.csdnimg.cn/reeBV

[11] 复旦团队发布MOSS模型,研究成果将开源:https://news.fudan.edu.cn/2023/0318/c2541a134172/page.htm

[12] 谷歌宣布Bard全量上线无需等候名单 升级PaLM 2模型并支持100多种语言:https://www.landiannews.com/archives/98660.html

[13]  这一年,AI扣响时代之问:https://www.thepaper.cn/newsDetail_forward_25921997

[14]  Make-a-character:Ren, J., He, C., Liu, L., Chen, J., Wang, Y., Song, Y., ... & Bo, L. (2023). Make-a-character: High quality text-to-3d character generation within minutes. arXiv preprint arXiv:2312.15430.

[15] BloombergGPT:Wu, S., Irsoy, O., Lu, S., Dabravolski, V., Dredze, M., Gehrmann, S., ... & Mann, G. (2023). Bloomberggpt: A large language model for finance. arXiv preprint arXiv:2303.17564.

[16]  华驼(HuaTuo):https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese

[17]  OpenAI已投,大厂高管涌入,儿童陪伴正成为AI应用的下一个风口:https://mp.weixin.qq.com/s/tav3smA_tj4cA51_AcBMlw

  • 20
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YaoAIPro

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值