大模型稀疏动态架构

在这里插入图片描述

DeepSeek应用稀疏动态架构(Sparse Dynamic Architecture)是其大模型技术的核心创新点。大模型稀疏动态架构是一种用于构建大规模人工智能模型的先进架构,整体提高了模型的效率、灵活性和性能。

一、发展历程

1.早期探索阶段
起源基础:20世纪8090年代的早期机器学习主要集中在决策树、SVM、KNN等经典算法,模型规模小,依赖手工特征。之后在2006年Geoffrey Hinton提出逐层无监督预训练缓解深层网络训练难题,为深度学习发展奠定基础。
稀疏概念初现:早期的神经网络中,就有研究尝试通过一些简单的方法来实现稀疏性,如L1正则化等,鼓励模型的参数变得稀疏,以减少过拟合和模型复杂度,但这一阶段的稀疏性应用相对较为初级,还没有形成完整的稀疏动态架构概念。
2.深度学习崛起与初步应用阶段
深度学习崛起:2012年AlexNet在ImageNet竞赛的成果,标志着深度学习大规模应用开始。
稀疏架构初步尝试:随着深度学习的发展,一些研究开始探索更复杂的稀疏架构,如稀疏自动编码器等,尝试通过自动学习的方式来发现数据中的稀疏表示。在自然语言处理领域,一些基于循环神经网络(RNN)和长短时记忆网络(LSTM)的模型也开始尝试引入稀疏连接或动态调整机制,以提高模型对长序列数据的处理能力。
3.Transformer架构推动阶段
Transformer架构提出:2017年谷歌提出Transform

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值