- 博客(3)
- 收藏
- 关注

原创 Transformer全息解构:万字长文,帮助你从零到精通
例如,若交换两个词的位置,注意力机制依然会以相同的方式处理它们。虽然每个头处理的信息量减少(维度低),但k个头覆盖了不同的子空间,最终拼接后仍恢复到d维,保留了信息容量,这提高了模型的表现力,同时保持了计算的高效性。如果只能从文本中去理解一个token的语义,那就只能根据它的上下文去进行判断,反过来有了上下文也应该可以推断出缺失的那个token的语义,那这个问题放在潜空间里面,每一个TOKEN都是一个向量,这样就可以把已知的词向量,看作是分力,中间缺的那个TOKEN对应的词向量,看作是已知分力的合力。
2025-03-22 21:06:54
1755
4

原创 DeepSeek技术报告——基础解析(1)
技术报告原文:DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3 · GitHubContribute to deepseek-ai/DeepSeek-V3 development by creating an account on GitHub.https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf1.基于MoE架构(在MoE(混合专家,Mixture
2025-02-01 16:46:31
1970
原创 卷积、卷积操作、卷积神经网络?原理探索
如果把像素点直接输入到全连接神经网络,最大的问题就是它识别出来的特征和像素点的具体位置是绑定的,很难被复用(例如图片中的花瓣,左边的花瓣和右边的花瓣具有的特征是相同的,但是神经网络却没有办法将它复用,只能把它们分别看作不同的特征),如果每个像素点本身保存的数值就是它和周围像素点的关系,就能避免这一点。我们可以这样理解卷积,在某一时刻发生了一件事,他会收到之前发生的很多事的影响,这不就是周围像素点对当前像素点的影响吗,而蝴蝶相应的g()函数是随着时间而影响的,那图像的g()函数则是根据位置而影响的。
2024-10-30 11:50:05
2705
9
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人