![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
LLM
文章平均质量分 81
王莽v2
做一条有梦想的咸鱼
展开
-
huggingface镜像源
【代码】huggingface镜像源。原创 2024-05-29 18:59:20 · 115 阅读 · 0 评论 -
【论文阅读】OpsEval
信息技术(IT)运营(Ops),特别是用于IT运营的人工智能(AlOps),是保持现有信息系统有序和稳定运行的保证。根据Gartner的预测,将人工智能技术用于自动化IT运营已成为一种新趋势。大型语言模型(LLM)在NLP相关任务中表现出非凡的能力,在AlOps领域显示出巨大的潜力,例如在故障的根本原因分析、操作和维护脚本的生成以及警报信息的总结等方面。尽管如此,当前LLM在运营任务中的表现尚未确定。需要一个全面的基准来优化为Ops(OpsLLM)量身定制的LLM。原创 2024-03-10 13:55:44 · 1157 阅读 · 0 评论 -
Multi-Head Attention详解
文中大部分内容以及图片来自:https://medium.com/@hunter-j-phillips/multi-head-attention-7924371d477a当使用 multi-head attention 时,通常d_key = d_value =(d_model / n_heads),其中n_heads是头的数量。研究人员称,通常使用平行注意层代替全尺寸性,因为该模型能够“关注来自不同位置的不同表示子空间的信息”。原创 2024-02-29 21:49:22 · 1986 阅读 · 0 评论 -
Transformer之Residuals & Decoder
我们需要提到的编码器架构中的一个细节是,每个编码器中的每个子层(self-attention,,ffnn)周围都有一个残余连接,然后是 layer-normalization 步骤。如果我们要可视化向量和与 self attention 相关的 layer-norm 运算,它看起来是这样的这也适用于解码器的子层。如果我们考虑一个由2个堆叠的编码器和解码器组成的Transformer,它看起来就像这样。原创 2024-02-29 12:15:54 · 1170 阅读 · 0 评论 -
Transformer之Positional Encoding
正如我们到目前为止所描述的那样,模型中缺少的一件事是解释输入序列中单词顺序的方法。为了解决这个问题,transformer 在每个输入嵌入中添加一个矢量。这些向量遵循模型学习的特定模式,这有助于它确定每个单词的位置,或序列中不同单词之间的距离。这里的直觉是,将这些值添加到嵌入中,一旦它们投射到Q/K/V矢量中,并在点积 attention 期间,嵌入向量之间会提供有意义的距离。如果我们假设嵌入的维数为4,那么实际的位置编码将是这样的这个模式会是什么样子呢?原创 2024-02-29 11:18:18 · 435 阅读 · 0 评论 -
Transformer之multi-head
当我们对“it”这个词进行编码时,一个注意力头主要关注“animal”,而另一个注意力头主要关注“tired”——从某种意义上说,模型对“it”这个词的表征融合了“动物”和“累”的一些表征。我意识到这是相当多的矩阵。既然我们已经触及了注意头,让我们回顾一下之前的例子,看看当我们在例句中对单词 “it” 进行编码时,不同的注意头集中在哪里。如果我们做同样的 self-attention 计算,只是8次不同的权重矩阵,我们最终会得到8个不同的Z矩阵。我们连接矩阵,然后将它们乘以一个附加的权重矩阵WO。原创 2024-02-29 10:50:14 · 482 阅读 · 0 评论 -
Transformer之self-attention
注意力是一个有助于提高神经机器翻译应用程序性能的概念。在这篇文章中,我们将看看Transformer,一个使用注意力来提高这些模型训练速度的模型。Transformer在特定任务中优于谷歌神经机器翻译模型。在这篇文章中,我们将尝试简化一些内容,并逐一介绍概念,希望能够让没有深入了解主题的人更容易理解。原创 2024-02-28 23:56:53 · 882 阅读 · 0 评论 -
用GGUF和Llama.cpp量化Llama模型
GGML是一个专注于机器学习的C语言库。它是由Georgi Gerganov创建的,这是GG的首字母缩写。这个库不仅提供了机器学习的基本元素,如张量,而且还提供了一种独特的二进制格式来分发llm。该格式最近更改为GGUF。这种新格式被设计为可扩展的,因此新特性不会破坏与现有模型的兼容性。它还将所有元数据集中在一个文件中,例如特殊 tokens、RoPE缩放参数等。简而言之,它解决了历史上的一些痛点,而且应该经得起未来的考验。欲了解更多信息,您可以在此地址阅读规范。原创 2024-02-26 14:26:00 · 3080 阅读 · 1 评论 -
使用GPTQ进行4位LLM量化
当一些权重被中间更新推到网格之外时,这种效果可能会恶化。一个简单的启发式应用来防止这种情况:异常值一出现就被量化。这个过程可能需要大量的计算,特别是对于LLMs。为了解决这个问题,OBQ方法使用了一种技巧,避免在每次简化权重时重新进行整个计算。量化权重后,它通过删除与该权重相关的行和列(使用高斯消去)来调整计算中使用的矩阵(Hessian矩阵)。该方法还采用向量化的方法,一次处理多行权矩阵。尽管OBQ的效率很高,但随着权值矩阵的增大,OBQ的计算时间也会显著增加。原创 2024-02-26 12:17:31 · 1822 阅读 · 0 评论 -
LLM权重量化
我们可以计算尺度是255/(3.2+3.0) = 41.13,zero point为 -round(41.13•-3.0)-128 = 123- 128 = -5,因此我们之前的0.1权重将被量化为round(41.13 * 0.1 - 5)= -1。然而,它们的局限性,特别是在处理异常值时,导致了LLM.int8(),这种技术也保留了模型的性能。通常,模型的大小是通过将**参数的数量(大小)乘以这些值的精度(数据类型)**来计算的。现在我们的模型已经被量化了,我们想要检查这个过程的影响。原创 2024-02-25 01:21:13 · 1027 阅读 · 0 评论