2024年人工智能领域10大预测

本文根据2023年人工智能发展现状,对2024年进行预测。包括以MoE为主的方法成大模型研究新方向、Transformer架构地位受挑战、大模型免微调方法发展、多模态大模型渗透各行业等十个方面,展现了人工智能多领域的发展趋势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2023年人工智能领域如果只能筛选一个关键词的话,恐怕非“大模型”莫属。大模型的发展在过去一年中,让各行各业发生了天翻地覆的变化,有企业因大模型而新生,有企业因大模型而消亡。企业的变迁跟技术迭代息息相关,而大模型就是新一代人工智能技术下的产物,大模型已经深入各行各业对具体业务进行了全方位的干预,可以说未来没有一个行业能脱离AI大模型的影子。新年伊始之际,人工智能的的发展也将进入下一阶段,对社会生产的改变也将更加明显,下面是根据过去一年人工智能的发展现状对未来一年人工智能发展的预测。

图片


一、以MoE为主的方法将成为大模型研究的新方向

MoE,即Mixture-Of-Experts,是一种深度学习技术,它通过门控网络实现任务/训练数据在不同专家模型间的分配,让每个模型专注处理其最擅长的任务,进而实现模型的稀疏性。这种方法可以在保证运算速度的情况下,将模型的容量提升>1000倍。

MoE模型由两个关键组成部分构成:门控网络和专家网络。门控网络负责根据输入数据的特征,动态地决定哪个专家模型应该被激活以生成最佳预测。专家网络是一组独立的模型,每个模型都负责处理某个特定的子任务。通过门控网络,输入数据将被分配给最适合的专家模型进行处理,并根据不同模型的输出进行加权融合,得到最终的预测结果。

MoE模型已经在一些实际应用中取得了显著的效果。例如,Moët & Chandon,这是一家法国的精品酒庄,也是奢侈品公司LVMH Moët Hennessy Louis Vuitton SE的一部分。他们使用MoE模型来提升其产品的质量和准确性。

在2023年12月份,Mistral AI发布了类GPT-4架构的开源版本Mistral 8x7B模型,这8个70亿参数的小模型组合起来,直接在多个跑分上超过了多达700亿参数的Llama 2。英伟达高级研究科学家Jim Fan推测,Mistral可能已经在开发34Bx8E,甚至100B+x8E的模型了。而它们的性能,或许已经达到了GPT-3.5/3.7的水平。

图片


二、Transformer架构的统治地位将受到挑战

在过去的几年中自从Transformer出现之后,它的架构几乎就是为大模型而量身制作的,简单的前馈神经网络模型能够提供给模型足够大的参数,再加上带有残差和注意力模块编解码结构的堆叠,不仅是参数量更进一步的增大,巍模型提供更强大表示能力,稠密的多头自注意力机制还为模型提供了数据内部不可或缺的关系表达能力。

但是随着底层基础模型技术的研究和发展,逐渐有一些新的模型架构对传统Transformer造成了一定的挑战,当然这种挑战不仅仅局限于学术层面,更多的可能还会在后续的工业界得到证实。

由于Transformer本身参数的增加随着token的增加成2次方的增长,这导致计算成本也在迅速的增长,其次Transformer在参数达到一定量级后也出现了表达瓶颈的现象,由此出现了一些在未来可能会替代Transformer的研究方案。

lRetNet:RetNet(Retentive Network)被设计为大型语言模型的基础架构,RetNet的主要优势在于它能够同时实现训练并行化、低成本推理和良好的性能。RetNet提出了一种名为"retention"的机制来替代传统的"attention"机制。这种机制支持三种计算范式,即并行、循环和分块循环。具体来说,其并行表示允许训练并行化,循环表示使得推理成本低,而分块循环表示有助于有效地进行长序列建模。

lRWKV:RWKV(Receptance Weighted Key Value)将 Transformer 的高效可并行训练与 RNN 的高效推理相结合。RWKV的设计精良,能够缓解 Transformer 所带来的内存瓶颈和二次方扩展问题,实现更有效的线性扩展,同时保留了使 Transformer 在这个领域占主导的一些性质;

lMamba:Mamba 基于选择性状态空间模型(SSM),Mamba 将这些选择性 SSM 集成到一个简化的端到端神经网络架构中,无需注意力机制,甚至不需要 MLP 块。Mamba 通过让 SSM 参数作为输入的函数,解决了其离散模态的弱点,允许模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值