用最简单的语言,在 AI 时代,带领更多的人一起前行。
从 2007 年,乔布斯发布 IPhone 手机后,人们进入了智能手机的时代,于是移动互联网的时代来了。
一、从 GPT 到 DeepSeek
早起的 GPT,并没有引起行业外的人注意,多数还在计算机行业内折腾。人们在谈论大模型的参数有多少时,对于外行看来,更多的是自嗨模式,对于普通人不会关心。
从用户视角看产品,这样在介绍如何产品时,第一时间可以抓住用户的注意力。
DeepSeek 模型的基础是基于 Google 的 Transformer 架构,在算法和工程模式进行了创新。
二、DeepSeek V3 模型
1、混合专家模型
DeepSeek的61个架构层中,58个架构层各自包含256个专家和1个共享专家,V3基座模型总共有6710亿参数,但是每次token仅激活8个专家、370亿参数(~5.5%)。
意味着一次调用,很多人专家其实不用激活起来干活的。
2、多头潜在注意力机制
对巨大的注意力机制矩阵进行压缩,减少参与运算的参数数量,显存占用仅为其他大模型的5%-13%。
得益于这两个机制,DeepSeek 在行业内被人熟知。
三、DeepSeek R1
强化模型推理,进行深度思考,用户可以整个推理过程,这个策略显然是站在用户的视角。
浙江大学在这方面素材的编写、人才的培养形成了机制,并形成了相对完整的体系。
这一切在DeepSeek 官方网站就可以使用:https://www.deepseek.com/
浙江大学 DeepSeek 系列教程:DeepSeek教程
学废了,帮忙点个赞!这对我非常重要!