1)性能接近闭源模型(如GPT-4),但训练和部署成本更低
2)DeepSeek R1,专注于数理逻辑与深度推理,例如解决高等数学、信号与系统等复杂问题,并通过知识蒸馏提升推理能力
- DeepSeek V3,采用混合专家架构(MoE),拥有6710亿参数,训练时激活部分参数(几十亿)平衡性能和效率。优点有多Token预测、无辅助损失负载均衡等技术,适合文学语言处理和长文本生成
4)本地部署,将模型运行在本地服务器或设备上(内网、PC),不依赖云端服务,数据全程不离开本地网络,提升安全性和响应速度,简言之就是用自己的服务器,不是用别人的服务器。例如,医疗记录、科研资料无需上传至第三方服务器,能够基于开源代码调整模型,进行定制化适配特定场景,适用于对隐私和复杂任务要求高的场景,例如高校、医院、金融机构
5)满血版,大概是指未经过蒸馏或压缩的完整模型(如DEEPSEEK671B),保留全部能力,需要高性能硬件支持,对应“残血版”(如8B/70B参数模型),通过量化技术压缩体积后,在消费级硬件运行
6)DEEPSEEK671B,混合专家MoE,将模型分为多个“专家”模块,根据任务动态调用部分专家,降低结算成本;动态量化,通过压缩模型参数(1.58-bit 量化),将体积从720GB缩小至131GB,适配消费级硬件(如 Ma