前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站
DeepSeek-V3 是 DeepSeek 公司推出的最新一代自研 MoE(Mixture of Experts)模型,拥有 671B 参数,激活 37B,并在 14.8T token 上进行了预训练。GPT-4o 是 OpenAI 推出的顶尖闭源模型,以其强大的通用性和多模态能力著称。以下将从多个维度对 DeepSeek-V3 和 GPT-4o 进行详细对比。
1. 模型架构
DeepSeek-V3
- 架构类型: MoE(Mixture of Experts)
- 参数规模: 671B 参数,激活 37B
- 预训练数据: 14.8T token
GPT-4o
- 架构类型: Transformer
- 参数规模: 具体参数未公开,但预计在数百B级别
- 预训练数据: 未公开,但预计在数十T token级别