DeepSeek-V2:强大、经济、高效的混合专家语言模型 1. 简介 今天我们来介绍 DeepSeek-V2,这是一个强大的混合专家 (MoE) 语言模型,具有训练经济、推理高效的特点。它总共包含 236B 参数,其中每个 token 激活 21B