大模型稀疏动态架构

deepdata_cn

于 2025-02-08 07:45:00 发布

阅读量1.2k

点赞数 25

分类专栏：垂域模型文章标签：语言模型

本文链接：https://blog.csdn.net/weixin_43156294/article/details/145417524

版权

在这里插入图片描述

DeepSeek应用稀疏动态架构（Sparse Dynamic Architecture）是其大模型技术的核心创新点。大模型稀疏动态架构是一种用于构建大规模人工智能模型的先进架构，整体提高了模型的效率、灵活性和性能。

一、发展历程

1.早期探索阶段
起源基础：20世纪8090年代的早期机器学习主要集中在决策树、SVM、KNN等经典算法，模型规模小，依赖手工特征。之后在2006年Geoffrey Hinton提出逐层无监督预训练缓解深层网络训练难题，为深度学习发展奠定基础。
稀疏概念初现：早期的神经网络中，就有研究尝试通过一些简单的方法来实现稀疏性，如L1正则化等，鼓励模型的参数变得稀疏，以减少过拟合和模型复杂度，但这一阶段的稀疏性应用相对较为初级，还没有形成完整的稀疏动态架构概念。
2.深度学习崛起与初步应用阶段
深度学习崛起：2012年AlexNet在ImageNet竞赛的成果，标志着深度学习大规模应用开始。
稀疏架构初步尝试：随着深度学习的发展，一些研究开始探索更复杂的稀疏架构，如稀疏自动编码器等，尝试通过自动学习的方式来发现数据中的稀疏表示。在自然语言处理领域，一些基于循环神经网络（RNN）和长短时记忆网络（LSTM）的模型也开始尝试引入稀疏连接或动态调整机制，以提高模型对长序列数据的处理能力。
3.Transformer架构推动阶段
Transformer架构提出：2017年谷歌提出Transform