- 博客(8)
- 收藏
- 关注
原创 【量子计算】量子计算入门,适合本科毕业生入门原理讲解
在本篇,你将会看到:量子计算所需要的数学知识 量子计算原理 尽可能白话讲述 量子计算模拟工具,开源免费。(以现在的计算机硬件没办法适用量子计算,但是通过模拟器,可以学习量子计算原理)阅读本篇之前,所需要的前置条件:理工科大学生?没问题。只要你已经学完了大学基础课。不推荐高数线代概率没学完的童鞋就来看这个。这个会把你现有的传统计算方式都推翻,会影响考试的~ 但是建议收藏以后慢慢看理工科大学毕业?没问题,如果你对矩阵的掌握足够自信,不妨来看看。电气,电子,电学相关学生or工作党? 那可太
2024-12-18 17:38:30
2799
6
原创 通俗理解旋转位置编码ROPE(二)---注意力机制与ROPE
每计算一次立刻更新到value,省去一个变量存储,同时将长序列分块,每块单独计算注意力机制,虽然会少一些长序列上下文关系,但是整体来说,更快,并且即使是长序列,更关注相邻更近的语义,也比关注第一句和最后一句之间的关系更好,发挥想象力,这也可以联系起位置编码哦(没准面试会问哦,有兴趣可以自行研究)。原因:刚刚说过,随着序列增加,旋转的角度会逐渐减小(看上图),依照attention权重矩阵的计算方式,Q与K转置的点积,里面的cos(θ),会逐渐增大。代表着什么,相对位置距离越近的token,其得分越高!
2024-10-18 08:25:20
1910
原创 通俗理解旋转位置编码ROPE(一)---注意力Q加入ROPE
对于序列中不同位置的token,编码值相同的情况(y的值为编码的值,x轴为序列,可以理解为0为第一个字,1为第二个字.....),如果恰好这两个字,或者说这两个token是一样的,那么位置编码直接失效,在概率上,这种情况几率很小,但是,即使是百万分之一的可能性,在千亿万亿级的token下,这种错误甚至可以影响模型训练效果。而在我们上面的旋转位置编码,频率并不固定,因此,可以想象旋转位置编码,在上图的左边即使是一个规整的圆,由于运动频率不同(或者说采样频率不同),而右边也不会是普通的sin函数曲线。
2024-10-18 08:23:53
862
原创 (徒手搓LLM)逐行代码解释,从0构造一个LLM——LlaMa篇
使用均值和方差计算数据的标准差,这样既保留了数据的异常值,同时维持数据的异常结构,这样可以稳定梯度,让梯度变化更稳定,减少梯度消失或者爆炸的问题,因为维持了异常结构,也能减少过拟合问题,增强泛化能力。好的,基本上就是这样,有了主干部分,剩下策略部分,或者增加其他算子,只要遵循结构,没什么不可以的。OK,到这里构造一个简单的Seq2seq模型,完毕,还是希望对上面的代码跑一下,理解一下,按行自行分析一下,如果有搞不清楚的,打印一下shape,看一下数据形状如何变换的。
2024-10-18 08:15:59
2279
原创 (某乎吞了我的帖子,发这里)DeepsetAI-haystack中文场景下使用(三)让haystack能用在中文任务上!
2023.12.5 deepsetAI发布了最新beta版本的haystack2.0 项目整体结构大改。而其分词分句功能目前没有加入,也许以后都不会加入。因此本教程适用于haystack2.0版本之前的。请根据需要下载版本,并查看官方文档。在2.0版本之前,haystack也存在很多实用性组件,不代表2.0版本会比之前功能更多。
2024-05-17 20:41:40
3697
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人