强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
deepseek模型 & 价格
下表所列模型价格以“百万 tokens”为单位。Token 是模型用来表示自然语言文本的的最小单位,可以是一个词、一个数字或一个标点符号等。我们将根据模型输入和输出的总 token 数进行计量计费。原创 2024-09-27 22:20:01 · 1096 阅读 · 0 评论 -
抄DeepSeek! Claude推出超长提示缓存:成本砍掉 90%,延迟爆降 85%
开发人员通常在提示词中包含几个示例,但通过提示词缓存,您可以通过包括数十个多样化的高质量输出示例来获得更好的性能。早期客户在多种使用场景中通过提示词缓存实现了显著的速度和成本改进——从包含完整知识库到 100 次样本提示再到将对话的每一次转折纳入提示词中。说到成本,由于需要将提示词存储在缓存中,初始API调用会稍微贵一些,但随后的所有调用价格仅为正常价格的十分之一。当你使用这些附加功能进行API调用时,claude会检查您的提示词的指定部分是否已从最近的查询中缓存。提示词缓存在多轮对话中也能发挥作用。原创 2024-08-30 10:23:32 · 1105 阅读 · 0 评论 -
DeepSeek-V2:强大、经济、高效的混合专家语言模型 github页面
如图所示,DeepSeek-V2 在 LiveCodeBench 中表现出了相当高的熟练度,获得了超越其他几个复杂模型的 Pass@1 分数。我们在 AlpacaEval 2.0 和 MTBench 上评估了我们的模型,显示了 DeepSeek-V2-Chat-RL 在英语对话生成方面的竞争性能。评估结果验证了我们方法的有效性,因为 DeepSeek-V2 在标准基准和开放式生成评估中都取得了出色的表现。为了促进我们模型的高效执行,我们提供了专用的 vllm 解决方案,以优化性能以有效运行我们的模型。原创 2024-07-18 21:18:52 · 2810 阅读 · 0 评论 -
Mistral NeMo:这是现在最好的开源LLM! (经过全面测试并击败 Qwen2、DeepSeek-V2 及其他)
它经过函数调用训练,具有较大的上下文窗口,并且在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面特别强大。这是代码,复制并预览,我知道你们中的一半已经离开文章了,但无论如何,每当我想到公司分享的基准测试中可能有什么问题时,我都会看到一些不一致。我是说,它比他们为编码发布的Cestal Mamba还要好,甚至比几乎所有其他模型都好,甚至与Qwen和DeepSeek相当。我真的很喜欢这个模型,这是一个新的好模型,所以在Co-pilot场景中看到它会很酷。原创 2024-07-20 14:56:24 · 1451 阅读 · 0 评论 -
以DeepSeek-VL为例,详解视觉语言模型原理及代码
目前图像占位符(<image_placeholder>)在token id中仅占一个位置(对应的token id为100015),但最终输入到LLM中的图像占的token数量是576,需要提前扩充,通过如下代码找到输入的token id中图像的位置,然后调用add_image_token函数将每一个图像占位符复制成576个,此时可以得到最终的输入到LLM中的token id list。然后就是过12层VIT的block了,最终的输出形状也为(576,1024)。原创 2024-09-13 14:54:19 · 1863 阅读 · 0 评论 -
为什么没有人用Go写机器学习底层代码, 反而都用C++?
1. Attention 输入的feature的权重分布, 这个feature在某一个维度有一个长度的概念,如果我们输入一个长为 n 的 feature,那么 Attention 就要学习一个长为 n 的分布权重,这个权重是由相似度计算出来的,最后返回的得分就将会是权重与feature的加权和。 1.1 Attention的计算过程 Attention的输入是Q,K,V,返回的是一个socre,计算公式如下: 需要注意的是上述公式的下标位置...原创 2021-07-23 11:23:33 · 310 阅读 · 0 评论 -
deepseek 型号和价格,合并了coder
以下列出的价格以每 1M 个 token 为单位。token 是模型识别的最小文本单位,可以是单词、数字,甚至可以是标点符号。我们将根据模型输入和输出的。产品价格可能有所不同,DeepSeek 保留调整价格的权利。我们建议根据实际使用情况进行充值,并定期查看此页面以获取最新的价格信息。,相应费用将从您的充值余额或赠予余额中直接扣除,当两种余额都可用时,优先使用赠予余额。¥0.1 / 100 万代币。¥1 / 100 万代币。¥2 / 100 万代币。deepseek 聊天。token 总数计费。原创 2024-09-12 22:09:47 · 1532 阅读 · 0 评论 -
CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试)
原创 Aitrainee AI进修生 2024年07月08日 07:43 湖南https://github.com/THUDM/CodeGeeX4,时长08:31Hi,这里是Aitrainee,欢迎阅读本期新文章。这款模型是专门为编程任务训练的,基于之前的 GLM 4-9b 模型,GLM 4-9b 是同一家公司推出的一款很酷的模型。这款新模型只有 90 亿个参数,因此在本地设备上运行非常方便。官方称这是 CodeGX4 系列最新的开源模型,是一个多语言代码生成模型,持续在 GLM 49b 基础上训练,大大提原创 2024-07-08 15:47:07 · 2077 阅读 · 0 评论 -
DeepSeek-Coder-V2:打破代码智能闭源模型壁垒
与 DeepSeek-Coder-33B 相比,DeepSeek-Coder-V2 在代码相关任务的各个方面以及推理和通用能力方面都有了显著的进步。此外,DeepSeek-Coder-V2 将其对编程语言的支持从。具体来说,DeepSeek-Coder-V2 从 DeepSeek-V2 的中间检查点进一步预训练,增加了。的DeepSeek-Coder-V2,而DeepSeek-Coder-V2的有效参数量仅为。DeepSeek-Coder-V2-Lite-指导。DeepSeek-Coder-V2-基础版。原创 2024-09-12 22:05:52 · 2690 阅读 · 0 评论 -
DeepSeek-V3 关键点解读:架构篇
在每个步骤的末尾,如果相应的专家过载,我们将减少偏置项 𝛾;为了避免在训练过程中产生不良梯度,我们提出了一种无辅助损失的负载平衡策略(Loss-Free Balancing),通过动态调整每个专家的偏差来控制负载平衡,而不引入干扰梯度。其中d表示输入序列长度,ti表示第i个位置的ground-truth Token,P(ti)[ti]表示第i个MTP模块给出的ti的相应预测概率。我们的MTP策略主要旨在提高主模型的性能,因此在推理过程中,我们可以直接丢弃MTP模块,主模型可以独立且正常地工作。原创 2024-12-27 18:31:35 · 646 阅读 · 0 评论 -
自回归和Rectified Flow完美融合统一多模态理解和生成!DeepSeek&北大等开源JanusFlow
当前图像理解与生成任务通常由专门的模型完成,统一模型在性能和效率上仍然存在局限性,难以在两个领域中同时达到优异表现。原创 2024-11-23 14:50:00 · 905 阅读 · 0 评论 -
DeepSeekV3带火大模型infra,入门看这篇就够了!
DeepSeekV3带火大模型infra,入门看这篇就够了!知乎:真中合欢地址:https://zhuanlan.zhihu.com/p/10091011992为什么会有这篇文章:虽然工作内容不是infra,但是我比较喜欢研究训练方法,魔改训练框架造轮子。正好最近看到OpenRLHF用ray管理VLLM的方案,感觉很有意思,遂研究了一下,发现VLLM的TP切分和Megatron是一套逻辑,用torch的rpc也可以代替ray的远程调用,所以打算用Megatron+TorchRPC+VLLM实现一原创 2024-12-31 21:34:24 · 677 阅读 · 0 评论 -
在M4 Mac Mini集群上运行DeepSeek V3 671B
博客文章尚未完成,如果您想阅读关于 EXO 如何分割模型的博客文章(与此相关),请查看 第1天,我们解释 EXO 如何将模型分割成分片[1]。对于 LLama 70B 模型,它是密集型的,这意味着我们需要计算 70B 个参数才能生成每个标记。从系统的角度看,专家混合模型本质上是一个大语言模型,每次推理时只使用参数的子集。因此,我们仍需保持所有参数“热“状态,随时可以发送到GPU,但实际计算时只会发送少量参数。对于batch_size=N,每秒计算的参数下降到1/N,但每秒传输到计算设备的参数不会改变。原创 2024-12-30 15:43:49 · 17128 阅读 · 0 评论 -
重磅更新!DeepSeek V3低调发布,超越Claude,编程能力提升明显
DeepSeek突然低调发布V3版本,并且已经上线官方网站,开源权重已经上传到HuggingFace,但还没有官方描述。在LiveBench测评中显示DeepSeek V3是最棒的开源LLM,在非推理模型中仅次于gemini-exp-1206,排名第二。在aider多语言编程测评中超过Claude 3.5 sonnet,仅次于OpenAI o1,相较于V2.5从17.8%完成率爆增到48.4%。唯一知道的是这是一个超大杯,参数高达685B,采用MoE架构,包含256个专家,每次选取TopK 8专家。原创 2024-12-27 13:48:35 · 1546 阅读 · 0 评论 -
用DeepSeek全自动写代码
我对这个方法还不是很满意,认为用numpy功能更简洁,于是我输入"用numpy",又开始解析,然后提示我要用pip install numpy先安装这个包。自动帮我生成了全部代码,还在main方法中构建了一个测试的data,并调用计算平均值方法,再打印出来。再增加一个方法,指令“再增加一个数组排序方法,正序排列”,这下DeepSeek很聪明,知道直接用numpy的sort方法。我们来尝试下AI生成代码。是不是很牛叉,只要用自然语言,不用写一行代码,帮你整的妥妥的,方法和变量的命名也很讲究。原创 2025-01-07 13:52:39 · 3912 阅读 · 0 评论 -
DeepSeekV3带火大模型infra,入门看这篇就够了!
DeepSeekV3带火大模型infra,入门看这篇就够了!知乎:真中合欢地址:https://zhuanlan.zhihu.com/p/10091011992为什么会有这篇文章:虽然工作内容不是infra,但是我比较喜欢研究训练方法,魔改训练框架造轮子。正好最近看到OpenRLHF用ray管理VLLM的方案,感觉很有意思,遂研究了一下,发现VLLM的TP切分和Megatron是一套逻辑,用torch的rpc也可以代替ray的远程调用,所以打算用Megatron+TorchRPC+VLLM实现一原创 2024-12-29 21:10:00 · 1015 阅读 · 0 评论 -
久等了,DeepSeek-VL2
视觉感知+语言推理,强强联手成就模型的视觉语义对话能力。)”,它会回答:“To cool down, you can use <|ref|>the fan<|/ref|><|det|>[[166, 460, 338, 712]]<|/det|> which is sitting on the desk.(为了降温,你可以使用 [[166, 460, 338, 712]] 位置处的风扇,它放在桌子上)”我们坚信,提升模型视觉能力的意义不仅在于支持更多的输入模态,更在于全方位提升模型的感知和认知能力。原创 2024-12-24 10:44:47 · 2488 阅读 · 0 评论 -
Deepseek v3 实测来了!智商牛逼,情商不存在,自信退出价格战
在过去一段时间里,大语言模型的社区对于算力的追逐往往陷入一种“集群越大、训练耗时越短、模型越强”的思维模式。最近 OpenAI 被爆料在训练 GPT-5 是遇到资源和数据的限制而导致迟迟做不出来...而 DeepSeek-V3,则成功通过深度优化的模型架构、训练策略、数据筛选和工程流程,同样能换来大幅度的性能增长和成本压缩——甚至让那些盲目投入十万卡、数千万 GPU 小时的项目看上去有些“浪费”......从 Deepseek v3 来看,决定性胜负手不再只是显卡数量。原创 2024-12-28 00:14:12 · 6619 阅读 · 0 评论 -
全网都在扒的DeepSeek团队,是清北应届生撑起一片天
这支团队中有的人在英伟达工作或实习过,有的来自同在杭州的阿里云,也有许多人从幻方AI借调又或干脆转岗到DeepSeek,参与了每一项大模型工作。郭达雅上学期间还有一项事迹,本科期间在MSRA实习一年里发表两篇顶会论文,他笑称“在刚入学的第三天,就完成了中大博士生的毕业要求。他们中有的参与了从DeepSeek LLM v1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。而如此重视软硬件协同的成果,就是以Llama 3 405B的1/11算力,训练出性能更高的DeepSeek-v3了。原创 2025-01-04 17:45:46 · 2208 阅读 · 0 评论 -
谈谈DeepSeek-v3在算力约束下的出色工作
DeepSeek-V3是一个671B的MoE模型, 每个Token激活参数为37B, 采用了MLA和DeepSeekMoE架构, 在大多数模型还在维持Transformer架构时, DeepSeek直接对架构进行了两个非常重要的创新, 并且通过v2充分验证了MLA和MoE的性能, 非常出色的工作. 一些Benchmark如下, 突然有点心疼Meta的几个亿美金...在同类产品中基本上做到了领先, 特别是在Code和math上.原创 2024-12-29 10:12:51 · 1664 阅读 · 0 评论 -
关于DeepSeek V3训推优化的剖析
所以H800上,因为fp8算力是bf16两倍,但是由于量化scale、累积精度等影响,不会直接double,贵乎有人说30-40%加速,低估多了怕被喷,另外fp8混合精度可以节省模型参数/激活产生的显存,访存型算子也快了,有了足够的显存,可以调整tp/pp/ep,因为v2用tp=1容易oom,因为dag或者激活没有切充分,另外tp=1, gemm shape很大, gpu降频咋办?手机敲的,0参考资料,纯读paper后的回忆理解, 点到为止。本文只做学术/技术分享,如有侵权,联系删文。原创 2025-01-02 21:39:24 · 537 阅读 · 0 评论 -
国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开
研发团队用了不到2个月的时间就完成了DeepSeek V3的预训练,耗费了266.4万GPU小时,再加上上下文长度扩展的11.9万GPU小时,和后训练的5000 GPU小时,总训练成本为278.8万GPU小时。直观地从钱上来对比就是,训练671B的DeepSeek V3的成本是557.6万美元(约合4070万人民币),而只是训练一个7B的Llama 2,就要花费76万美元(约合555万人民币)。新题为“Which version is this?这主要是为了在推理阶段,实现MoE不同专家之间的负载均衡。原创 2024-12-27 16:21:12 · 1596 阅读 · 0 评论 -
DeepSeek-VL2开源,VLM迈入MoE时代~
视觉-语言模型系列,它显著改进了其前身DeepSeek-VL。DeepSeek-VL2在多种任务上展现出卓越的能力,包括视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位。,分别拥有10亿、28亿和45亿激活参数。与现有的开源密集型和基于MoE的模型相比,DeepSeek-VL2在相似或更少的激活参数下实现了竞争性或最先进的性能。”,它会回答:“为了降温,你可以使用 [[166, 460, 338, 712]] 位置处的风扇,它放在桌子上”2024年12月13日 21:09。原创 2024-12-13 21:16:13 · 583 阅读 · 0 评论 -
从infra的视角聊聊DeepSeek-V3
这是因为,MoE节省flops的好处主要体现在计算密集的prefill阶段,而在访存密集的decode阶段,MoE巨大的参数量然而会带来更加昂贵的数据搬移开销。根据技术报告里的数据,得益于更加稀疏的MoE设计,以及系统上的一系列优化,训练V3每trillion数据的GPU小时数仅仅为180K(而V2对应的GPU小时数为172.8K),可谓是将V2技术报告标题中的Economical(性价比)贯彻到底。上,DeepSeek-V3使用64路的专家并行,16路的流水线并行,以及数据并行(ZeRO1)。原创 2025-01-04 17:47:43 · 977 阅读 · 0 评论 -
DeepSeek 推理模型预览版上线,解密 o1 推理过程
DeepSeek-R1-Lite 目前仍处于迭代开发阶段,仅支持网页使用,暂不支持 API 调用。DeepSeek-R1-Lite 所使用的也是一个较小的基座模型,无法完全释放长思维链的潜力。模式专门针对数学、代码等各类复杂逻辑推理问题而设计,相比于普通的简单问题,能够提供更加全面、清晰、思路严谨的优质解答,充分展现出较长思维链的更多优势。DeepSeek-R1-Lite 的推理过程长,并且包含了大量的反思和验证。等权威评测中,均取得了卓越的成绩,大幅超越了 GPT-4o 等知名模型。原创 2024-11-21 22:06:00 · 1023 阅读 · 0 评论 -
今日开源(2024-10-21):DeepSeek发布Janus1.3B,统一多模态理解和生成,新颖自回归框架,解耦设计提升性能
该框架通过优化的内核支持1.58-bit模型的高效推理,显著提升了ARM和x86 CPU上的速度和能效。该项目提供了完整的代码库,支持在Meta-World和iTHOR等环境中进行实验。用户可以通过提供的脚本进行模型训练和推理,并使用预训练模型进行快速实验。该项目旨在实现端到端的训练、推理和评估,并提供工具以更好地理解速度和稳定性。Janus不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。该项目提供了模型权重、推理代码和评估脚本,支持语音标记化和语音文本情感保留基准测试。原创 2024-10-21 20:36:54 · 884 阅读 · 0 评论 -
Deepseek应用实测!小白也能一句话生成APP,太强了!
不像以前,即使是一个程序员,纯手敲一个「计算器」的代码,也得花上不少时间。目前这款工具,有个比较大的痛点是,不支持多轮对话。所以,当前这个AI工具比较适用开发一些小型创意APP,如果是想要开发一个电商网站,那是不现实的。考验的不只是你的编程水平,更突出的是,你的思维能力、洞察能力、创新能力....在Github上有一款开源的项目,就是基于这个大模型,做的一款应用生成工具。首先是上网条件,国内不允许下载,另外软件安装后,还需要配置一些环境。再来看生成一个计算器,用时不到10s,简单做下试算,结果都是正确的。原创 2025-01-12 19:29:25 · 3255 阅读 · 0 评论 -
心疼Deepseek,一夜之间家被MiniMax偷了
包含MiniMax-Text-01 和MiniMax-VL-01 两个模型,现在都目前代码已经开源在gayhub和抱抱脸,paper也已经可以在预印本下到(足足 68 页,看晕我了😵💫) Text-01的技术细节如下⬇️ 一共有 456B的参数(但请放心,他是一个MoE的架构) 每次激活参数 45.9B 一共有32 个专家 值得注意的是,Text-01 的benchmark优于前段时间爆火的Deepseek-v3和gpt4o,仅次于Claude3.5-1022。编辑于 今天 10:05 河北。原创 2025-01-15 14:53:17 · 1236 阅读 · 0 评论 -
校招154W!DeepSeek待遇和核心成员曝光!
同时,该公司也注重给予其他职位合理薪酬,如客户端研发工程师年薪30万,实习生日薪500元,并提供转正机会及房补。梁文锋的创业思路与英伟达创始人黄仁勋相似,均注重信念驱动、生态搭建与人的自驱力。他相信,在赚快钱时代结束后,会有更多人投身于真正的创新。这种注重内驱力、创造力的工作方式,或将成为未来主流。DeepSeek的核心成员背景多样,并非清一色的清北或海归博士。其创始人梁文锋,虽非博士且未出国深造,但其创业经历堪称传奇。他凭借对AI的热爱与执着,从量化交易转向AI大模型研发,创立了DeepSeek。原创 2025-01-30 05:41:45 · 1002 阅读 · 0 评论 -
起于LLM下的“RL”思想洞察萌生,年末收于DeepSeek R1的“RL”大道至简,回顾甲辰年
工作上:今年很幸运能够结识并自然的组合成了铁三角特工小团队,我们一起走过并攻坚了多个挑战性项目,在项目中碰撞出了四射的火花,尽管这一年周围的事和人都在无提前预警的快速变化着,但始终不变的是这个金三角的持续努力与某种初心,期待明年会取得好的结果,以及组成更多的铁三角。吃喝上:自然不用多说,大家可如图所示。原创 2025-01-26 16:41:02 · 278 阅读 · 0 评论 -
全球 AI 社区的 DeepSeek r1
还是需要更多的算力,中国怎么用较少的算力做出成果,从而有一定的抵御能力甚至做的更。的机器人的动作是找的小脑非常健康的人做的标注,丝滑程度很好,而中国找的人的丝滑程。现有的任务是自动化的问题,还有很多问题,对未来增量的爆发非常乐观,智能是不能。有可能导致美国的政策对中国的政策更加不利,但历史上封锁的东西,能被突破的都会很。不能做的最好,空间还很大,和新挑战在于资源有限,只能把有限的资源放在最亮眼的。如果不了解最大技术的痛点,而选择用蒸馏的技术去避免了解,那在下一代技术提出的。原创 2025-01-30 06:12:10 · 580 阅读 · 0 评论 -
DeepSeek是照妖镜
要真是西大金融就此完蛋,我们这点损失也当随礼了,可是看着不像,你们过节期间不还是看着人家的颜色?做深入研究和跟踪的老师们还得不出股价泡沫的结论,看新闻写文章的自媒体反而疾呼泡沫破了做吹哨人,其中不少前几天还在吹西大的星际之门引发新一轮算力投资竞赛呢,这似乎与泡沫时候的直观感觉相反。你问我们支持不支持东升西落,我们可以很明确的告诉你支持,我们几乎所有仓位都在东大权益上能不支持?完成了春节期间的最大额消费,假期已经无力消费,可能真有人想买一个。,真成了二级人的春晚了,究竟是人性的扭曲还是道德的沦陷?原创 2025-01-30 05:40:00 · 282 阅读 · 0 评论 -
当 AI 编程遇上 DeepSeek R1
可以用官方的也可以在 OpenRouter 购买,前者限制IP严重,推荐后者,当然你也可以跳过这一步,直接用 R1 写代码效果也不错。Cline 的理念是不做省token的上下文管理,追求效果,全部项目丢给模型,所以用起来会贵一些,而且每次请求都展示花了多少钱,有点心疼,可能习惯之后就好了。请直接用 DeepSeek 官网的 API,不要用 Openrouter 的,它的不支持缓存,要贵一些,而且连接不如官网的稳定。建议直接使用官方网站的国内 API,速度快,而且支持缓存,能省一点钱。原创 2025-01-26 17:47:31 · 1022 阅读 · 0 评论 -
DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了
结果显示,通过RL,即便没有监督微调数据,DeepSeek-R1-Zero依然获得了强大的推理能力。为支持研究社区发展,研究团队开源了DeepSeek-R1-Zero、DeepSeek-R1,以及6个基于Qwen和Llama提炼的DeepSeek-R1模型,参数规模分别为1.5B、7B、8B、14B、32B和70B。- 改进软件工程任务:因为评估过程耗时太长,影响了RL训练的效率,导致DeepSeek-R1在软件工程基准测试上,未取得明显进步。借助DeepSeek-R1的输出,团队提炼出6个小模型并开源。原创 2025-01-22 13:46:42 · 955 阅读 · 0 评论 -
DeepSeek V3 两周使用总结
机器学习AI算法工程2025年01月25日 10:10广西向AI转型的程序员都关注公众号 机器学习AI算法工程2024 年 12 月 26 日,杭州深度求索人工智能基础技术研究有限公司发布 DeepSeek-V3 大模型。官方宣称:(1)基于自研的 MoE 模型和 671B 参数,在 14.8T token 上进行了预训练;(2)多项评测成绩超越了。原创 2025-01-25 18:14:16 · 714 阅读 · 0 评论 -
看DeepSeek R1的论文时,我突然想起了AlphaGo
读完论文,其实我唯一的疑惑就是,不在600B这么大规格的模型上,而是在100B甚至更小的模型上,能否走通这个路线。不过不管怎么说,R1这篇论文都是对我的极大鼓舞,起码后面多了一个比较明确的尝试方向。原创 2025-01-26 00:33:38 · 793 阅读 · 0 评论 -
DeepSeek-V3 是怎么训练的|深度拆解
梯度裁剪的范数设置为 1.0。在 MLA 结构中,注意力头的数量 (nh) 设置为 128,每个注意力头的维度 (dh) 为 128,KV 压缩维度 (dc) 为 512,Query 压缩维度 (d') 为 1536,解耦的 Key 头的维度 (dr) 为 64。为了实现 MoE 架构中的负载均衡,DeepSeek-V3 采用了无额外损耗的负载均衡策略,并将偏置项的更新速度 (γ) 在预训练的前 14.3T 个 Token 中设置为 0.001,在剩余的 500B 个 Token 中设置为 0.0。原创 2025-01-17 02:07:53 · 3704 阅读 · 0 评论 -
重磅升级!Cursor 0.45:AI 更懂代码、DeepSeek 双模型加持
Cursor 目前支持 DeepSeek 的两个重要模型: deepseek-r1 和 deepseek-v3,这个是 0.45 之前新增的,现在应该都能看到。这次更新显示了 Cursor 团队在提升代码理解能力和用户体验方面的努力,特别是通过引入 DeepSeek 模型,为开发者提供了更强大的 AI 编程助手功能。用户反映代码编辑更加准确,不再出现意外删除或错误添加代码的问题。AI 助手能够查看最近的代码变更,包括用户消息之间的修改。当对话变得过长时,可以开启新会话并引用之前的内容。原创 2025-01-25 18:11:19 · 1426 阅读 · 0 评论 -
Deepseek又开源了颠覆性的新模型Janus-Pro
Janus不是简单的技术迭代,而是多模态架构设计的一次哲学升级——它用“分工协作”取代“大一统”,让AI真正学会“看”与“画”的平衡艺术(这句话来自deepseek-R1)👀理解编码器:采用SigLIP(高维语义提取),将图像压缩为紧凑的语义向量,适配语言模型的推理需求。Janus是为了解决多模态AI领域的一个根本性矛盾:“理解”与“生成”任务对视觉表征的需求。而且在多模态理解与生成能力上实现飞跃,还大幅提升了图像生成的稳定性和细节表现!的表现证明了这条路是走的通的✅。任务冲突,实现“专业的人。原创 2025-01-28 07:15:44 · 1014 阅读 · 0 评论 -
海螺MiniMax-01登顶「开源大模型榜首」,比肩DeepSeekV3,吊打GPT-4o与Claude-3.5!
03.01.04-翻译长论文上图展示了该模型能够很好的。原创 2025-01-20 09:36:36 · 984 阅读 · 0 评论