- 博客(3)
- 收藏
- 关注
原创 手推Transformer张量传递过程
前两个维度的 batch 中句子总数和注意力头数不变,后面变成了句子中每个词所携带的其他词赋予的语义量(例如代词 "it" 原本的输入特征只有其本身的“它”,现在和句子中其它词例如“dog”的 value 乘了下,现在 "it" 也包含 "dog" 的语义信息了)。每个 token 的语义向量:512(融合了这个 token 对其它 token 的语义摄入,这里的 "it" 或 "你我他" 不是简单代词了,已经融合了它具体指带的对象的语义)。32 为 batch 中包含的句子数量,10 为确定的句子长度。
2026-02-05 14:26:07
833
原创 小小的dp魔法
至此,我们解答了问题1和问题2的不同,那么内外循环的换序为什么可以从统计集合变为统计序列呢(当两个set互相拥有对方所有拥有的元素则相同,当array中对应元素相同才相同)我们继续使用上一个例子。而在外循环逆序遍历和数,那么目标数N一开始状态就被锁死在0了,因为我们假设dp[i - j]已经被计算好了,但逆序遍历的话当前dp[i - j]还没遍历到呢?如果我们先遍历零数集合的可能性(1,2),也就是把M放外圈,那么我们现在先把1取出来,让内圈数字(1~5)用这个数字来构成自己。外循环不再有,内循环常停留。
2025-03-12 19:57:07
722
原创 机试纸质材料整理(C++)
item **使用\texttt{emplace()}替代\texttt{insert()}**:当需要添加新键值对时,使用\texttt{emplace()}方法会比\texttt{insert()}更高效,因为它直接在容器中构造对象,而不需要额外的复制或移动操作。\item **避免使用\texttt{clear()}后马上重用容器**:使用\texttt{clear()}清空容器后,容器的内存可能不会立即释放,因此在清空大量数据后,建议使用\texttt{rehash(0)}来减少占用的内存。
2025-03-09 17:07:16
525
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅