AMD Radeon RX7900XTX 双显卡/多显卡本地大语言模型生成内容乱码问题和解决方案（使用IOMMU=PT）

最新推荐文章于 2025-03-21 11:15:14 发布

Kevsterr

最新推荐文章于 2025-03-21 11:15:14 发布

阅读量4.3k

点赞数 9

分类专栏： AMD多显卡AI推理文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kevsterr/article/details/139446163

版权

AMD多显卡AI推理专栏收录该内容

1 篇文章

订阅专栏

在Ubuntu 22.04系统中，我安装了当前最新的AMD AI平台ROCm6.1.1，并使用了两张显存容量为24GiB的RX 7900XTX显卡，在本地跑LLMs大语言模型推理任务。

我选择了GitHub开源的两种方式在AMD显卡上部署大语言模型，分别如下：

ollama
text-generation-webui

在装入双7900XTX前，我首先测试了单张7900XTX运行ollama或text-gen-webui进行文字生成的情况。从huggingface下载的llama2-7b-chat-hf/llama2-13b/qwen/chatglm3等模型都可以顺利调用显卡的计算资源并且快速生成文字内容。生成的文字内容清晰可读符合逻辑。

接着，我装入两张7900XTX，开机并使用amd-smi和rocminfo等工具查看两张显卡的待机情况，如图：

输入rocminfo指令，可以看到ROCm6.1.1已经正常识别到两个Agent，代表两块7900XTX

输入amd-smi指令，查看两块卡的当前状态

显卡的准备工作完成，接下来分别在ollama和text-gen-webui运行llama2-13b模型，发现生成的内容全是乱码，如图片所示

text-gen-webui：llama2-13b-chat-hf

ollama：llama2-13b

解决方案

关闭IOMMU（Input/Output Memory Management Unit）或将IOMMU设置为Passthrough模式可解决该问题，具体方法如下：

用gedit编辑器打开grub

添加iommu=pt以指定passthrough模式

更新grub

重启

重启后，再次启用ollama或text-gen-webui进行大语言模型生成文字，一切正常

ollama：llama2-70b

text-gen-webui：llama2-13b

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。