深度小轩-CSDN博客

原创 Transformer全息解构：万字长文，帮助你从零到精通

例如，若交换两个词的位置，注意力机制依然会以相同的方式处理它们。虽然每个头处理的信息量减少（维度低），但k个头覆盖了不同的子空间，最终拼接后仍恢复到d维，保留了信息容量，这提高了模型的表现力，同时保持了计算的高效性。如果只能从文本中去理解一个token的语义，那就只能根据它的上下文去进行判断，反过来有了上下文也应该可以推断出缺失的那个token的语义，那这个问题放在潜空间里面，每一个TOKEN都是一个向量，这样就可以把已知的词向量，看作是分力，中间缺的那个TOKEN对应的词向量，看作是已知分力的合力。

2025-03-22 21:06:54 1755 4

原创 DeepSeek技术报告——基础解析（1）

技术报告原文：DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3 · GitHubContribute to deepseek-ai/DeepSeek-V3 development by creating an account on GitHub.https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf1.基于MoE架构（在MoE（混合专家，Mixture

2025-02-01 16:46:31 1970

原创卷积、卷积操作、卷积神经网络？原理探索

如果把像素点直接输入到全连接神经网络，最大的问题就是它识别出来的特征和像素点的具体位置是绑定的，很难被复用（例如图片中的花瓣，左边的花瓣和右边的花瓣具有的特征是相同的，但是神经网络却没有办法将它复用，只能把它们分别看作不同的特征），如果每个像素点本身保存的数值就是它和周围像素点的关系，就能避免这一点。我们可以这样理解卷积，在某一时刻发生了一件事，他会收到之前发生的很多事的影响，这不就是周围像素点对当前像素点的影响吗，而蝴蝶相应的g（）函数是随着时间而影响的，那图像的g（）函数则是根据位置而影响的。

2024-10-30 11:50:05 2705 9

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Transformer全息解构：万字长文，帮助你从零到精通

原创 DeepSeek技术报告——基础解析（1）

原创 卷积、卷积操作、卷积神经网络？原理探索

空空如也

空空如也

原创卷积、卷积操作、卷积神经网络？原理探索