大模型
文章平均质量分 76
bitcarmanlee
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一文搞懂各种Attention机制
在自注意力机制中,每个元素(例如,句子中的一个词或者序列中的一个项)的表示是由序列内部的其他元素通过注意力权重来加权平均得到的。self-attention,指的是通过Scaled Dot-Product Attention的计算方式,计算注意力分数,最终对向量实现加权求和操作,得到输入序列中的每个位置加权向量表示。根据上面的公式,可以得到注意力分数。Self在自注意力中强调的是模型在处理序列时,每个元素的上下文表示是由序列内部的元素共同决定的,而不是依赖于外部的元素或者序列。即对应论文中上面这个公式。原创 2024-11-01 16:04:33 · 1741 阅读 · 0 评论 -
Transformer Attention公式中Q,K,V理解
我们知道,矩阵可以看作由一些向量组成,一个矩阵乘以它自己转置的运算,其实可以看成这些向量分别与其他向量计算内积。这是在计算第一个行向量与自己的内积,第一行乘以第二列是计算第一个行向量与第二个行向量的内积第一行乘以第三列是计算第一个行向量与第三个行向量的内积…我们回想前文提到的向量的内积表征两个向量的夹角,表征一个向量在另一个向量上的投影。是一个方阵,我们以行向量的角度理解,里面保存了每个向量与自己和其他向量进行内积运算的结果。答:表征两个向量的夹角,表征一个向量在另一个向量上的投影。至此,我们理解了公式。转载 2024-09-23 08:41:09 · 1912 阅读 · 0 评论 -
各种距离相似度量及计算
各类算法中,距离是一个经常使用的量,经常会与各种相似性计算联系在一起。下面我们来总结一下各种距离与相似的计算。原创 2024-05-15 11:53:20 · 1056 阅读 · 0 评论 -
chatglm-6B模型下载
从huggingface上面下载chatglm-6B模型是比较简捷的方式,下面记录一下下载安装过程。原创 2023-11-20 15:56:52 · 2061 阅读 · 0 评论
分享