本机实现LLM调用，测试Qwen3B模型回答问题准确率：多卡执行，单卡执行

最新推荐文章于 2025-06-04 16:58:42 发布

ZhangJiQun&MXP

最新推荐文章于 2025-06-04 16:58:42 发布

阅读量67

点赞数 1

分类专栏：教学 2024大模型以及算力 2021 AI python 文章标签： transformer 深度学习人工智能 python 单例模式

本文链接：https://blog.csdn.net/qq_38998213/article/details/147427918

版权

教学同时被 3 个专栏收录

1469 篇文章 ¥199.90 ¥299.90

订阅专栏

2021 AI python

1060 篇文章 ¥199.90 ¥299.90

订阅专栏

2024大模型以及算力

868 篇文章 ¥199.90 ¥299.90

订阅专栏

本机实现LLM调用，测试Qwen3B模型回答问题准确率：多卡执行，单卡执行

在这里插入图片描述

单卡执行：

import torch
import json
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
from langchain_huggingface import HuggingFacePipeline
from langchain.<

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ZhangJiQun&MXP

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

【程序员AI入门：模型】21.驾驭AI浪潮：大模型快速迭代的应对之道

RickyIT的专栏

05-17

841

驾驭AI浪潮：大模型快速迭代的应对之道。构建“技术层弹性架构+资源层成本优化+组织层敏捷响应”的闭环，实现从“被动适配”到“主动引领”的跨越。

有关去中心化算路大模型的一些误区：低带宽互连导致训练速度太慢；小容量设备无法生成基础规模的模型；去中心化总是会花费更多；虫群永远不够大

最新发布

weixin_54510197的博客

06-04

888

本文介绍了在RTX 4090 24G显卡上部署Qwen3-235B-A22B MoE大模型的实践指南。主要内容包括：1) 硬件要求（需8张GPU）和软件环境配置；2) Docker部署命令详解及关键参数说明，如--enable-expert-parallel优化显存利用率；3) 常见问题调优方案，包括显存不足和多卡通信效率问题；4) 性能测试数据及API调用示例。文章强调该2350亿参数模型在代码生成和数学推理任务中的优势，并提供了生产环境优化建议，如量化模型选择和吞吐量提升技巧。

AI大模型落地应用场景：LLM训练性能基准测试

m0_63171455的博客

06-18

2524

训练性能在本文指机器（GPU、NPU或其他平台）在指定模型和输入数据的背景下，完成一次端到端训练所需要花费的时间，考虑到不同模型的训练数据量和训练轮次（epoch）差异，此处定义的性能是在完成一个batch训练所需花费的时间。而端到端通常是指完成一个AI模型单步训练的过程。也就是说，本文所讨论的性能的衡量和性能的优化，都是站在模型角度上。单batch总时间 = 数据加载时间 + 模型前反向时间 + 优化器时间 + 模型后处理时间 + 通信时间 + 调度时间数据加载时间。

部署Qwen2.5-7b大模型详解

猛犸象

10-17

1万+

部署Qwen2.5-7b大模型详解

LLM大模型综述

zh515858237的专栏

01-10

3万+

LLM其实就是large language model，大语言模型。如果对“最终任务”进一步进行分类，又大致可以分为两大不同类型的任务：自然语言理解类任务和自然语言生成类任务。如果排除掉“中间任务”的话，典型的自然语言理解类任务包括文本分类、句子关系判断、情感倾向判断等，这种任务本质上都是分类任务，就是说输入一个句子（文章），或者两个句子，模型参考所有输入内容，最后给出属于哪个类别的判断。自然语言生成也包含很多NLP研究子方向，比如聊天机器人、机器翻译、文本摘要、问答系统等。

开源模型应用落地-解锁大语言模型的无限潜能

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

01-11

2万+

1、您是否也在迫不及待地期待在AI时代中展示自己的能力？ 2、您是否一直在研究如何使用开源模型？ 3、您是否一直在寻找将AI与业务结合的方向？ 4、您是否一直在寻找模型推理加速的方法？ 5、您是否一直在努力整合来自互联网上零散的资料？

三大行业案例：AI大模型+Agent实践全景

2401_85325726的博客

12-26

1115

本文将从AI Agent和大模型的发展背景切入，结合51Talk、哈啰出行以及B站三个各具特色的行业案例，带你一窥事件驱动架构、RAG技术、人机协作流程，以及一整套行之有效的实操方法。具体包含内容有：51Talk如何让智能客服“主动进攻”，带来约课率、出席率双提升；哈啰出行如何由Copilot模式升级为Agent模式，并应用到客服、营销策略生成等多个业务场景；B站又是如何借力大模型与RAG方法，引爆了平台的高效内容检索和强互动用户体验。

中小企业硬核接入大模型：用QLoRA微调Google大模型Gemma-3微调实战

2401_85390073的博客

04-13

981

微调的本质是利用了迁移学习技术，即从预训练模型开始，通过特定数据集进一步训练以提高特定领域的性能。全微调（Full- Fine-tuning）：重新训练整个模型，更新所有参数权重，效果显著但资源密集。参数高效微调（PEFT）：仅更新少量参数（如），减少计算需求，适合资源有限的企业。常见技术有：LoRA（Low-Rank Adaptation）、QLoRA、P-tuning（前缀调优）、Adapter等。蒸馏：训练较小模型模仿较大模型的行为，降低数据需求。指令微调。

vLLM深度解析：高性能大语言模型推理引擎全揭秘

2401_84495872的博客

04-08

1090

vLLM（Vectorized Large Language Model Serving System）是由加州大学伯克利分校团队开发的高性能、易扩展的大语言模型推理引擎。它专注于通过创新的内存管理和计算优化技术，实现高吞吐、低延迟、低成本的模型服务。

神经网络和算力共享结合：基于深度学习的算力资源智能分配机制；一种支持跨云、跨边缘计算平台的协同训练框架；模型自适应优化策略

ZJQ的博客

07-07

4万+

神经网络和算力共享结合：基于深度学习的算力资源智能分配机制；一种支持跨云、跨边缘计算平台的协同训练框架；模型自适应优化策略

算力共享方案

ZJQ的博客

07-15

4万+

平台的整体方案不但包括集群系统网络、存储、安全、可视化设备、计算服务器等硬件算力资源池的构建而且包含算力调度系统、算力交互门户、算力运行基础环境和算力应用等软件系统构建，这是一个庞大而系统化的工程。在算力资源池规划中，根据需求可分为工业设计、AI研发所需的可视化资源池，科学计算资源池和AI训练推理资源池，这些资源池使用统一的存储空间，按照其业务特性进行个性化网络配置，为平台提供算力基础能力。

Tinygrad，llama3，Reward Model

ZJQ的博客

07-25

4万+

根据公开发布的信息，Llama 3是一款文本生成AI，与OpenAI的GPT和Anthropic的Claude模型类似，用户可以编写文本提示，然后Llama 3会生成相应的文本响应。在复杂的实际应用场景中，设计一个合适的奖励模型并非易事，因此研究如何构建有效的奖励模型成为了强化学习领域的关键技术与挑战。总的来说，Tinygrad是一个轻量级但功能强大的深度学习框架，它以其简洁的设计和易用性吸引了众多开发者的关注。Llama 3是一个“开放权重”模型，意味着模型本身是开源的，提供了一定程度的透明度。

Megatron-LM在训练过程中怎么保证参数传递并保证每块GPU都在工作

ZJQ的博客

07-24

4万+

Megatron-LM通过数据并行、张量并行和流水线并行等多种并行策略的综合运用，确保了训练过程中每块GPU都在工作，实现了高效的并行训练。这种分布式训练框架特别适用于训练超大规模的语言模型，如GPT-3等。

区块链技术和系统；ZKRollup ；区块链交易打包和审查

ZJQ的博客

07-19

4万+

区块链技术作为一种去中心化、不可篡改且高度安全的分布式账本技术，近年来在统等多个领域展现出了巨大的应用潜力。：熟悉区块链的基本概念，如等核心技术。能够解释区块链如何工作，以及它的去中心化、透明性和安全性的基本原理。：了解并实践过至少一种或多种主流区块链平台，如等。熟悉这些平台的特性、开发环境、交易模型、智能合约编写语言（如Solidity）等。：能够，理解其在区块链上自动执行合约条款的重要性。了解智能合约的安全隐患，如重入攻击、时间戳依赖等，并知道如何避免这些问题。

算力共享：环形结构的算力分配策略

ZJQ的博客

07-25

4万+

因此，在这个例子中，节点将首先根据它们的内存大小进行降序排序，如果内存大小相同，则根据节点ID进行降序排序（尽管在内存大小不同的情况下，节点ID的比较通常不会影响最终排序结果）。是基于前一个分区的结束位置更新的，并且每个分区的结束位置都是基于内存比例计算的，因此所有分区的总和可能不会恰好等于 1（即整个资源池的比例）。由于元组在Python中是按位置进行比较的，因此当用作排序关键字时，会首先比较元组的第一个元素（内存大小），如果两个元素的内存大小相同，则会比较第二个元素（节点ID）。参数指定了排序的方向。

算力共享中数据切片：按照神经网络层数；算力共享-策略

ZJQ的博客

07-24

2万+

目录dataclasses是什么dataclasses的主要特性和用法包括：示例代码算力共享中数据切片：按照神经网络层数算力共享-策略详细说明：使用场景：算力共享中，任务分片后，是串行执行还是并行执行1. 并行执行的优势2. 串行执行与并行执行的区别3. 算力共享中的任务分片与并行执行按照神经网络层数分片，怎么并行执行而不影响模型参数准确率，尤其在模型训练过程中1. 数据并行与模型并行结合数据并行模型并行2. 确保参数一致性3. 监控和调整4. 选择合适的优化算法5. 验证和测试6. 注意事项参数服务器或A

超算网络体系架构-资源层-平台层-服务层-应用层

ZJQ的博客

07-16

2万+

提供灵活的计费策略，对机时类、容量类、应用类、服务类等资源进行分类和聚合,提供固定价格、阶梯价格等计费方式;提供线上线下等多种资源购买方式，支持用户在线支付;支持平台与多中心之间、平台与商户之间、平台与个体开发者之间等的结算机制;建立交易结算体系，实现跨地域、跨运营主体的结算通道。