
LLM相关
文章平均质量分 85
亲持红叶
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从 GPT‑2 到 gpt‑oss:解析架构的迭代
OpenAI 本周刚发布了两款新的开放权重的大语言模型:gpt-oss-120b 和 gpt-oss-20b,这是自 2019 年 GPT-2 以来首次推出的开放权重模型。是的,得益于一些巧妙的优化,它们可以在本地运行(稍后会详细介绍)。这是自 GPT-2 以来,OpenAI 首次分享体量较大的、完全开放权重的模型。早期的 GPT 模型展示了 Transformer 架构的可扩展性。2022 年的 ChatGPT 发布则通过在写作与知识(以及后来在编程)任务上的具体实用性,使这些模型走向主流。原创 2025-08-10 21:11:24 · 1434 阅读 · 0 评论 -
从零开始实现Qwen3(MOE架构)
本文介绍了如何从零实现Qwen3-MoE模型架构。Qwen3-MoE采用稀疏混合专家(MoE)设计,与密集模型共享基础结构,支持30B-A3B至235B-A22B参数量级。核心配置包括:2048维隐藏层、128个专家(每个token激活8个)、768维MoE中间层、32头GQA注意力(分组数4)、RMSNorm归一化和SwiGLU激活函数。文章详细解析了模型的技术细节,包括词汇表大小151936、26万上下文长度、ROPE位置编码等关键参数,并提供了PyTorch实现中的RMSNorm层代码示例。该实现可在原创 2025-08-10 12:06:51 · 1731 阅读 · 0 评论 -
从零开始实现Qwen3(Dense架构)
本文介绍了从零开始实现Qwen3-Dense架构的相关内容,重点解析了其Decoder部分的核心组件。文章首先基于Qwen3-0.6B的配置文件分析了模型架构特点,包括词汇表大小151936、上下文长度40960、使用SwiGLU激活函数、ROPE编码等关键技术。特别详细介绍了RMSNorm(均方根归一化)的实现原理,包括其数学公式和代码实现,展示了与LayerNorm相比在计算复杂度上的优势。通过Pydantic定义了模型配置的数据结构,为后续实现提供了清晰的参数框架。文章为理解Qwen3系列大模型的核心原创 2025-08-03 22:45:36 · 1860 阅读 · 0 评论 -
大模型结构比较
本文比较了现代大型语言模型(LLM)的架构演变,重点关注DeepSeek-V3和OLMo 2等模型。尽管基础Transformer架构保持稳定,但关键改进包括:位置嵌入从绝对嵌入发展为旋转嵌入(RoPE);多头注意力被分组查询注意力(GQA)取代;激活函数升级为更高效的SwiGLU。DeepSeek-V3采用多头潜在注意力(MLA)和混合专家(MoE)技术,MLA通过压缩键值张量降低内存占用,MoE则通过稀疏激活提升模型容量同时保持推理效率。OLMo系列以训练透明性著称,虽未在榜单领先但为研究提供了宝贵参考原创 2025-08-01 23:49:20 · 1507 阅读 · 0 评论 -
单卡4090部署Qwen3-32B-AWQ(4bit量化、sglang版)
单张NVIDIA RTX 4090显卡上部署Qwen3-32B-AWQ(4bit量化)模型原创 2025-07-21 16:17:01 · 2136 阅读 · 0 评论 -
kimi-k2模型配置参数
Kimi-K2是一款万亿级MoE大模型,采用稀疏架构设计,包含384个路由专家,每次推理仅激活8个。模型架构基于DeepseekV3改进,支持128K长上下文,使用YaRN进行RoPE外推。主要技术特点包括:7168模型维度、61层Transformer、层层MoE结构、FP8量化和bfloat16推理支持。该模型专注于高容量、推理效率和agent能力,通过top-k路由和序列级负载均衡优化专家分配。相比业界普遍转向后训练的趋势,Kimi仍在预训练方向持续突破,展现了独特的技术路线。原创 2025-07-15 22:07:17 · 1119 阅读 · 0 评论 -
序列搜索策略
介绍三种序列搜索策略:贪心搜索、穷举搜索和集束搜索。原创 2025-06-02 22:51:26 · 659 阅读 · 0 评论 -
单卡4090部署Qwen3-32B-AWQ(4bit量化)-vllm
在单卡NVIDIA 4090 GPU上部署4bit量化的Qwen3-32B-AWQ模型,使用vllm推理框架。原创 2025-05-30 22:58:48 · 2553 阅读 · 5 评论 -
GPU时间与transformer架构计算量分析
分析GPU计算时间的主要影响因素及Transformer架构的计算量。GPU时间包含计算、内存访问、数据传输和同步时间,受模型复杂度、GPU性能等多因素影响。针对Decoder-Only的Transformer架构,详细推导了各模块参数量计算公式原创 2025-05-28 17:39:18 · 997 阅读 · 0 评论 -
离线并使用cline插件
在内网环境中安装VS Code的Cline插件的方法。Cline是一款AI编程助手,具备代码生成、终端命令执行、文件操作和浏览器交互等功能,支持多模式切换和上下文感知。文章详细说明了从GitHub下载VSIX文件并离线安装的步骤,以及如何在内网中配置模型(以硅基流动为例)和MCP服务。通过配置MCP服务,用户可以实现本地服务连接,扩展Cline的功能。最后展示了Cline结合MCP工具的实际使用示例,包括自然语言查询和处理过程。原创 2025-05-27 17:40:30 · 1867 阅读 · 0 评论 -
quantization-大模型权重量化简介
大型语言模型(LLM) 以其庞大的计算需求而闻名。通常,模型的大小是通过将参数数量(大小)乘以这些值的精度(数据类型)来计算的。但是,为了节省内存,可以通过称为量化的过程,使用较低精度的数据类型来存储权重。以下列举了7B和32B模型在全精度 (FP32类型) 下的模型参数大小7B参数模型参数数量:7B = 7 × 10^9每个参数的精度:FP32 = 32 bits = 4 Bytes。原创 2025-05-03 17:28:29 · 1169 阅读 · 0 评论 -
Qwen3-30B-A3B部署(使用vllm和sglang)
vllm并发数为40时达到性能峰值(每秒输出tokens为924.52)当并发数增加到50时,性能略有下降(每秒输出tokens为917.30,下降约0.8%)平均用时从40并发的45.43秒增加到50并发的55.64秒,增加了22.5%:sglang在测试范围内(1-50并发),性能上升趋势,50并发时每秒输出tokens达到1014.74,比40并发的1002.87略提升(约1.2%),平均用时从40并发的41.82秒增加到50并发的50.43秒,增加20.6%若需确定其极限,可以进行更高并发数的测试。原创 2025-05-01 23:55:42 · 5519 阅读 · 4 评论 -
sglang部署DeepSeek-R1-Distill-Qwen-7B
模型:DeepSeek-R1-Distill-Qwen-7B显卡:4090 1张显存占用:约22.6G。原创 2025-04-23 21:55:58 · 958 阅读 · 0 评论 -
vllm部署QwQ32B(满精度)
Ollama是一个轻量级的开源LLM推理框架,注重简单易用和本地部署,而VLLM是一个专注于高效推理的开源大型语言模型推理引擎,适合开发者在实际应用中集成和使用。两者的主要区别在于Ollama更注重为用户提供多种模型选择和易用性,而VLLM更注重模型推理性能的优化。所以VLLM更适合企业级的高并发需求。vllm的github地址QwQ32B硬件要求Q4_K_M量化,大概需要22G左右够用,一张3090或者4090即可,魔改2080ti 的 22G 显存差不多够用。原创 2025-03-24 20:53:30 · 3457 阅读 · 1 评论 -
unsloth微调QwQ32B(4bit)
注意,unsloth中默认100步保存一个checkpoint,因为当前steps=60,所以只有一个checkpoint点。可以看到第一个问题还是回答错了,第二个问题也如旧,可以考虑继续进行大规模微调,使用全部微调文件+多个epoch。unsloth在微调结束后,会自动更新模型权重(在缓存中),因此无序手动合并集合直接调用微调后的模型。填入以下两个,以修改HuggingFace 的镜像源 、模型保存的默认。点击wandb链接,查看训练过程中的损失函数,学习率,梯度等等的变化。此时本地保存的模型权重在。原创 2025-03-23 22:00:16 · 1555 阅读 · 1 评论 -
vllm部署QwQ32B(Q4_K_M)
Ollama是一个轻量级的开源LLM推理框架,注重简单易用和本地部署,而VLLM是一个专注于高效推理的开源大型语言模型推理引擎,适合开发者在实际应用中集成和使用。两者的主要区别在于Ollama更注重为用户提供多种模型选择和易用性,而VLLM更注重模型推理性能的优化。所以VLLM更适合企业级的高并发需求。vllm的github地址QwQ32B硬件要求Q4_K_M量化,大概需要22G左右够用,一张3090或者4090即可,魔改2080ti 的 22G 显存差不多够用。原创 2025-03-17 23:31:01 · 3035 阅读 · 2 评论 -
基于llama.cpp的QwQ32B模型推理
llama.cpp项目主页:llama.cpp源码下载。原创 2025-03-17 22:17:45 · 1546 阅读 · 0 评论 -
ModelScope推理QwQ32B
ModelScope 命令行工具的下载命令,用于从 ModelScope 平台下载指定的模型。指定源安装,保存为 requirement.txt 安装(这里用的中科大的源)参数指定要下载的模型的唯一标识符(Model ID)。查看下满精度的显存使用量,可以看到用了63.7G左右。是目标目录路径,表示模型将被下载到这个目录中。这里使用满精度的QwQ32B,需要64G显存。参数指定模型下载后存放的本地目录路径。当前文件夹,请自行替换自己的文件夹。需要安装的 python 包。可以看到模型文件都下载下来了。原创 2025-03-17 00:02:05 · 1232 阅读 · 0 评论 -
ollama注册自定义模型(GGUF格式)
需要全程开启ollama需要注意,尽管手动下载的GGUF格式模型权重是阿里官方发布的模型权重,但仍然会偶尔出现和ollama不兼容,导致胡言乱语的情况出现。如果希望使用ollama进行推理,优先建议使用ollama pull命令下载ollama官方的GGUF格式。以下是用阿里自己开源的qwq32b-GGUF格式来演示。原创 2025-03-16 20:52:24 · 823 阅读 · 0 评论 -
Modelscope命令行下载开源大模型
ModelScope 命令行工具的下载命令,用于从 ModelScope 平台下载指定的模型。执行下载模型的命令,以下载 qwen2.5-0.5b 为例。参数指定要下载的模型的唯一标识符(Model ID)。是目标目录路径,表示模型将被下载到这个目录中。参数指定模型下载后存放的本地目录路径。安装 modelscope。原创 2025-03-15 16:29:30 · 4014 阅读 · 0 评论 -
Huggingface命令行下载开源大模型
填入以下两个,以修改HuggingFace 的镜像源 、模型保存的默认。执行下载模型的命令,以下载 deepseekr1-1.5b为例。安装 HuggingFace 官方下载工具。重新加载,查看环境变量是否生效。原创 2025-03-15 16:28:12 · 499 阅读 · 0 评论 -
ollama API 本地调用
前提条件,ollama 已经启动了模型,查看 ollama 中的 model 名称。使用 openai 调用。原创 2025-03-14 23:09:28 · 1012 阅读 · 0 评论 -
消费级显卡上ollama部署QwQ32B
QwQ32B硬件要求魔改2080ti 的 22G 显存差不多够用ollama中的是Q4_K_M量化模型。原创 2025-03-14 22:21:43 · 1550 阅读 · 0 评论 -
RagFlow+Deepseek构建个人知识库
注意,ragflow 镜像有多个不同的大小,默认的是v0.17.2-slim,区别如下,主要是包不包含embedding模型的区别,我选的默认的,因为占用小,并且我后续使用调用api的方式去配置embedding模型,所以就选,默认的。我们可以看到已经引用到上传的pdf了,点击引用的标识,可以看到引用的内容出自哪里。查看模型填入的名称,如果是直接下载的软件包安装的,打开终端输入以下命令查看。这里直接调用硅基流动的api,下面的博客有注册的方法。这个NAME下面的就是需要输入的名称。原创 2025-03-13 23:14:22 · 1661 阅读 · 0 评论 -
Ollama本地部署deepseek-r1蒸馏版
在这个里面可以看到所有支持的模型,比如搜索deepseek-r1, 如下图,最后一个箭头就是在ollama中运行deepseekr1-1.5b的命令。在本地可以使用chatbox,或者openwebui,或者cherrystudio等等接入ollama的模型,下面以cherrystudio为例子示范一下。是 Ollama 的官方镜像,从 Docker Hub 拉取,就是我们刚刚拉取的。: Docker 的核心命令,用于创建并启动一个新的容器。: 端口映射,将容器内的端口映射到宿主机的端口。原创 2025-03-12 22:21:29 · 955 阅读 · 0 评论