自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Transformer全息解构:万字长文,帮助你从零到精通

例如,若交换两个词的位置,注意力机制依然会以相同的方式处理它们。虽然每个头处理的信息量减少(维度低),但k个头覆盖了不同的子空间,最终拼接后仍恢复到d维,保留了信息容量,这提高了模型的表现力,同时保持了计算的高效性。如果只能从文本中去理解一个token的语义,那就只能根据它的上下文去进行判断,反过来有了上下文也应该可以推断出缺失的那个token的语义,那这个问题放在潜空间里面,每一个TOKEN都是一个向量,这样就可以把已知的词向量,看作是分力,中间缺的那个TOKEN对应的词向量,看作是已知分力的合力。

2025-03-22 21:06:54 1755 4

原创 DeepSeek技术报告——基础解析(1)

技术报告原文:DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3 · GitHubContribute to deepseek-ai/DeepSeek-V3 development by creating an account on GitHub.https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf1.基于MoE架构(在MoE(混合专家,Mixture

2025-02-01 16:46:31 1970

原创 卷积、卷积操作、卷积神经网络?原理探索

如果把像素点直接输入到全连接神经网络,最大的问题就是它识别出来的特征和像素点的具体位置是绑定的,很难被复用(例如图片中的花瓣,左边的花瓣和右边的花瓣具有的特征是相同的,但是神经网络却没有办法将它复用,只能把它们分别看作不同的特征),如果每个像素点本身保存的数值就是它和周围像素点的关系,就能避免这一点。我们可以这样理解卷积,在某一时刻发生了一件事,他会收到之前发生的很多事的影响,这不就是周围像素点对当前像素点的影响吗,而蝴蝶相应的g()函数是随着时间而影响的,那图像的g()函数则是根据位置而影响的。

2024-10-30 11:50:05 2705 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除