交叉注意力机制

最新推荐文章于 2025-03-25 21:58:09 发布

m0_56744512

最新推荐文章于 2025-03-25 21:58:09 发布

阅读量241

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/m0_56744512/article/details/139391215

版权

调用nn.MultiheadAttention(embed_dim,num_heads=1)可以实现

输入q,k,v，另外设置need_weights参数可以控制是否输出权重

输出元组。结果是元组第0个元素，它的维度是(L,N,embed_dim)，L是序列步长，它的值取决于q的步长。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

m0_56744512

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Qwen-14B-Chat-Int4推理报错:ImportError: libcudart.so.12: cannot open shared object file

qq_42681787的博客

11-09

1731

按照提示，pip安装这两个包，结果报错： ImportError: libcudart.so.12: cannot open shared object file: No such file or directory。发现是由于安装的 auto-gptq版本与conda安装的CUDA版本冲突所导致。在 Qwen-14B-Chat-Int4推理时，发现报错，缺少 optimum 和 auto-gptq 两个pip包。安装了跟我conda环境与cuda版本相匹配的 AutoGPTQ，问题解决。

大模型LLM 在线量化；GPTQ\AWQ量化及推理

weixin_42357472的博客

11-19

2039

参考:https://github.com/casper-hansen/AutoAWQ/blob/87350fefb9081dadec111cea9b315d009d877a87/examples/quant_custom_data.py。参考：https://vllm.readthedocs.io/en/latest/quantization/auto_awq.html。参考：https://github.com/vllm-project/vllm/issues/1538。应该是vllm暂时还不支持。

参与评论您还未登录，请先登录后发表或查看评论

llama2使用gptq量化踩坑记录

weixin_50845368的博客

11-07

7292

我刚开始直接pip install auto-gptq，产生了一系列的问题。本地是CUDA11.6，首先的问题是无法量化。gptq本身是一个github仓库，随后集成在了Transformers 库里，介绍如下：optimum🤗Transformers**已经整合了*，**用于对语言模型进行GPTQ量化。您可以以8、4、3甚至2位加载和量化您的模型，而不会对性能产生很大的影响，并且能够提高推理速度！这在大多数GPU硬件上都得到支持。optimum。

关于pycharm安装GDAL包失败的问题

永不言弃的博客

06-01

2770

4 找到自己项目所在路径下的Scripts文件夹也就是pycharm 中解释器设置下的解释器路径 C:\Users\casia\OPT-server\Scripts\GDAL-3.3.3-cp39-cp39-win_amd64.whl。5 在终端下输入 pip insall C:\Users\casia\OPT-server\Scripts\GDAL-3.3.3-cp39-cp39-win_amd64.whl。代表自己电脑是win64位机。是自己python版本号。网页中找到对应的安装包。

AtomGPT

TH_NUM的博客

07-02

521

【转发】为了能够在中文上训练出一个能够和ChatGPT能力接近的中文大模型，我们开放了AtomGPT项目AtomGPT基于LLaMA的模型架构，从0开始训练，希望能在训练的过程中，将模型能力得到提升的进化过程展示出来，感受到模型学习的过程。(ps:各位大佬，如果本项目能给您带来一点点帮助，麻烦点个⭐️吧)

BaiChuan13B-GPTQ量化详解

Blue&boke

04-18

1385

1、按照网上搜索的一些代码，如使用auto_gptq原生库进行训练后量化，可能会正常量化，但是在线推理时会出现如找不到bin文件或者tf文件，即模型权重文件，所以和网上大部分代码不同的地方在于，需要提前保存对应模型的权重文件，如果是BaiChuan13B，那么在进行模型量化前，对其进行保存。按照上述步骤，此时模型量化文件保存成功，接下来就是模型在线推理。

源2.0-M32大模型适配AutoGPTQ工具及量化&推理教程

2401_82700030的博客

09-29

1662

AutoGPTQ‌是一个开源工具包，专注于简化大规模语言模型(LLMs)的量化过程。它基于高效的GPTQ算法开发，主要使用Python编程语言，并依托PyTorch框架来实现量化功能。AutoGPTQ的设计目标是为开发者和研究人员提供一个易于使用的API接口，即使对量化技术不太了解的用户也能轻松进行模型量化。通过采用仅量化权重的方式，该工具包在尽量减少性能损耗的情况下，缩减了模型体积，提升了部署的效率。

【AIGC】大模型面试高频考点-LLM量化方法对比：GPTQ、GGUF、AWQ

LeeZhao的博客

03-16

1199

LLM量化方法对比：GPTQ、GGUF、AWQ

欺诈文本分类检测（十四）：GPTQ量化模型

golfxiao的专栏

09-11

1819

本文通过gptq方法分别对微调后的模型进行了8位量化和4位量化，并对比了量化前后模型的性能指标差异，8位量化模型的性能指标变化小，而4位量化模型的性能指标变异较大。

【通义千问】大模型Qwen GitHub开源工程学习笔记（4）-- 模型的量化与离线部署

weixin_46481662的博客

10-13

2703

量化方案基于AutoGPTQ，提供了Int4量化模型，其中包括Qwen-7B-Chat和Qwen-14B-Chat。更新承诺在模型评估效果几乎没有损失的情况下，降低存储要求并提高推理速度。量化是指将模型权重和激活的精度降低以节省存储空间并提高推理速度的过程。AutoGPTQ是一种专有量化工具。Int4是指4位整数量化，与传统的8位量化相比，可以进一步减少存储要求。

pip install pytorch-quantization error

qq_43318374的博客

05-28

792

【代码】pip install pytorch-quantization error。

大模型量化AutoGPTQ代码配置

HuanB123的博客

11-04

377

针对大语言模型推理性能优化的研究取得了巨大的进展，如今我们不仅能够在高端显卡上完成大语言模型的推理，甚至在 CPU 和边缘设备上都可以轻松运行大语言模型。在此记录我配置大模型量化的代码AutoGPTQ的过程中出现的问题和解决方案。选择合适自己的python、系统、和cuda版本的wheel文件，在这里我选择的第三个，因为我的是cu117。大家也可以根据图示命令查看自己虚拟环境中的cuda版本，选择对应的文件。安装的话得到的很可能是不符合你的环境的包。其实最核心的在于安装auto-gptq这个包，但是直接。

使用autogpt来写一篇技术文章（如何部署autogpt+遇到的问题+如何使用）

王亮的博客

04-15

5519

autogpt如何部署，部署遇到问题，使用体验

Qwen大模型实践之量化

lldhsds的专栏

05-08

1583

当前该功能不支持与flash attention同时开启，如果你开了KV cache量化的同时又开了flash attention（use_flash_attn=True， use_cache_quantization=True, use_cache_kernel=True），程序默认将关闭use_flash_attn。开启了KV cache量化之后，模型在推理时可在生成更长的序列（sl，生成的token数）时，节约更多的显存。运行程序后，模型加载完毕，显存占用9G左右，有降低。

AutoGPTQ量化环境搭建与示例实现

qq_41878154的博客

09-10

933

运行上述代码后可以得到一个量化后的文件夹，这个量化后的模型是以.safetensor格式保存的。文件中具体内容如下所示。

使用GPTQ进行4位LLM量化

wangyifan123456zz的博客

02-26

3562

当一些权重被中间更新推到网格之外时，这种效果可能会恶化。一个简单的启发式应用来防止这种情况：异常值一出现就被量化。这个过程可能需要大量的计算，特别是对于LLMs。为了解决这个问题，OBQ方法使用了一种技巧，避免在每次简化权重时重新进行整个计算。量化权重后，它通过删除与该权重相关的行和列(使用高斯消去)来调整计算中使用的矩阵(Hessian矩阵)。该方法还采用向量化的方法，一次处理多行权矩阵。尽管OBQ的效率很高，但随着权值矩阵的增大，OBQ的计算时间也会显著增加。

在本地Windows机器加载大模型并生成内容