DeepSeek术语笔记

1)性能接近闭源模型(如GPT-4),但训练和部署成本更低

2)DeepSeek R1,专注于数理逻辑与深度推理,例如解决高等数学、信号与系统等复杂问题,并通过知识蒸馏提升推理能力

  1. DeepSeek V3,采用混合专家架构(MoE),拥有6710亿参数,训练时激活部分参数(几十亿)平衡性能和效率。优点有多Token预测、无辅助损失负载均衡等技术,适合文学语言处理和长文本生成

4)本地部署,将模型运行在本地服务器或设备上(内网、PC),不依赖云端服务,数据全程不离开本地网络,提升安全性和响应速度,简言之就是用自己的服务器,不是用别人的服务器。例如,医疗记录、科研资料无需上传至第三方服务器,能够基于开源代码调整模型,进行定制化适配特定场景,适用于对隐私和复杂任务要求高的场景,例如高校、医院、金融机构

5)满血版,大概是指未经过蒸馏或压缩的完整模型(如DEEPSEEK671B),保留全部能力,需要高性能硬件支持,对应“残血版”(如8B/70B参数模型),通过量化技术压缩体积后,在消费级硬件运行

6)DEEPSEEK671B,混合专家MoE,将模型分为多个“专家”模块,根据任务动态调用部分专家,降低结算成本;动态量化,通过压缩模型参数(1.58-bit 量化),将体积从720GB缩小至131GB,适配消费级硬件(如 Ma

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dotdotyy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值