- 博客(2)
- 收藏
- 关注
原创 DeepSeek V4 为何爽约“春节档“?一场关于技术、战略与耐心的行业观察
全网等V4,本质上是在等一次"2025年R1震撼"的复刻。但R1之所以震撼,是因为它超越了所有人的预期。当预期本身已经被拉满,再强的模型,震撼感也会打折。与其在春节档跟竞品挤破头,不如等市场冷静下来,用一个真正"炸裂"的产品,重新定义标准。毕竟,在AI这个赛道,晚两周发布不会死,但发布一个不够好的模型,会死得很惨。
2026-02-27 15:59:29
460
原创 从MHA到MLA:大模型注意力机制演进全梳理
未来,随着长上下文、多模态和边缘部署需求的增长,我们或许会看到动态注意力(根据输入自适应选择机制)、神经架构搜索(NAS)与注意力的结合,乃至完全抛弃注意力的新范式。从MHA的多头独立到GQA的分组共享,再到MLA的低秩压缩,每一次创新都在重新定义"注意力"的边界。2023年,Ainslie等人在Google Research提出GQA ,在MHA的表达能力与MQA的效率之间寻找平衡点。使用可学习的"潜在向量"作为查询,将输入压缩到固定长度,处理超长序列或高维数据(如视频、点云)。
2026-02-26 19:24:51
773
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅