自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(739)
  • 资源 (10)
  • 收藏
  • 关注

原创 A Model-Driven Deep Learning Method for Normalized Min-Sum LDPC Decoding

来源Q. Wang, S. Wang, H. Fang, L. Chen, L. Chen and Y. Guo, “A Model-Driven Deep Learning Method for Normalized Min-Sum LDPC Decoding,” 2020 IEEE International Conference on Communications Workshops (ICC Workshops), Dublin, Ireland, 2020, pp. 1-6, doi: 10.1

2020-09-07 14:09:38 1089

原创 每日强化学习

20200901强化学习阅读:https://blog.csdn.net/qq_30615903/article/details/80739243

2020-09-01 15:23:39 167

原创 Relation extraction文章

Others2018No.FigureTitleAuthorsPub.Links5CASREL:A Novel Cascade Binary Tagging Framework for Relational Triple ExtractionKun Ho Kim, Oisin Mac Aodha, Pietro PeronaCVPR 2018 (Spotlight)paper4[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xk

2020-06-12 07:58:29 873

原创 凸优化之内点法

Convex Optimization Stephen Boyd Department of Electrical Engineering Stanford University 第11章本文为笔者结合原书及博客https://blog.csdn.net/dymodi/article/details/46441783 记录自己相关解释原始问题原始问题对应的拉格朗日公式为:利用障碍函...

2020-04-05 11:37:35 1825

原创 GloVe: Global Vectors for Word Representation必记

关于算法原理参考:下面是Relation with skip gramskip gram:接下来在整个corPus 中训练:但在vast corpus 难以求所有的Qi,jQ_{i,j}Qi,j​,采用近似但对于两分布中的交叉熵损失是有弊端的:即低概率高权值并且上式中的Qi,jQ_{i,j}Qi,j​还是难以normalized,因此不归一化带来的问题是Qhat,Pha...

2020-03-04 11:41:32 294

原创 grahp attention networks(GAT 学习必记)

深入理解图注意力机制向往的GAT(图注意力模型)

2020-02-20 15:12:26 656

原创 semi -supervised classification with graph convolutional networks学习必记

1 主要解决的问题半监督学习:用于少量节点标签未知,例如文本、citation network、知识图谱分类2 主要思想采用图卷积中的一阶局部近似(即K=1),这部分的理解可以参考Chebyshev多项式作为GCN卷积核当K=1 时有两个参数,模型scales linearly in the number of graph edges ,同时可以表征局部图结构和节点的特征:3. 半...

2020-02-19 14:27:03 428

原创 Convolutional Sequence to Sequence Learning学习心得

为什么使用CNN学习序列表示和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如下图。和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如上图。Hierarchy representation如图1,只需要三次CNN operation ,而需要 7 次 r...

2020-02-18 16:25:43 690

原创 Sequence to Sequence Learning with Neural Networks学习笔记

论文的主要创新点提出了序列到序列的学习方法提出的背景DNN的限制:输入和输出向量维度固定,实际上很多序列问题中的序列长度不是已知先验单个RNN 的限制:输入和输出等长,且要一一对齐且对齐已知,无法应用到输入输出不等长且对应关系为非montonic解决方案两个RNN理论可行一个负责将输入充列map 为固定大小的vector(背景向量,含有整个输入句子的信息),另一个RNN将背景向列...

2020-02-17 16:44:20 372

原创 Attention Is All You Need(Transformer )

今天是2020年2月1日,笔者学习了Attention Is All You Need(Transformer )论文,可以在sequence to sequence 模型中用multi head self -attention 代替RNN,可以并行计算输出,其中multi head 的作用可以集成不同的上下文attention,由于knowledge leve有限,代码层面有待学习...

2020-02-01 16:54:11 205

原创 机器学习每日阅读更新

方差、偏差与欠拟合及过拟合

2020-01-30 12:54:25 198

原创 自然语言处理(机器翻译IBM模型 系列)

机器翻译方法概述直接转换法基于规则的翻译方法基于中间语言的翻译方法基于语料库的翻译方法- 基于事例的翻译方法- 统计翻译方法- 神经网络机器翻译基于规则的翻译过程分成6个步骤:(a) 对源语言句子进行词法分析(b) 对源语言句子进行句法/语义分析© 源语言句子结构到译文结构的转换(d) 译文句法结构生成(e) 源语言词汇到译文词汇的转换(f ) 译文词法选择与生成...

2019-12-25 16:29:35 3910

原创 概率图模型

例对于5节点,给定1和2,节点5和3,4都独立

2019-12-23 10:01:45 231

原创 【vllm】DP 负载均衡

Hybrid Load Balancing = (外部的、粗粒度的 HTTP 流量分发) + (内部的、精细化的本地引擎调度)所以,“Hybrid” 这个词非常贴切,因为它不是单纯的外部模式(因为节点内部有智能调度),也不是单纯的内部模式(因为流量的初次分发是由外部完成的,且调度范围是本地化的)。对比项内部负载均衡 (Internal)外部负载均衡 (External)混合负载均衡 (Hybrid)API 入口单一入口 (主节点)多个独立入口多个节点级入口负载均衡器。

2026-03-03 16:47:16 719

原创 【socket] 发布与订阅

zmq.XPUB是一个功能强大的套接字类型,它让发布者“看见”订阅者,从而可以实现更灵活的消息分发逻辑。通过结合XSUB和zmq.proxy函数,可以轻松构建高性能的消息代理。希望以上内容能帮助你理解和使用XPUB。

2026-03-03 16:34:10 408

原创 【vllm】dp 并行。Coordinator订阅与发布

订阅方发现发布方的过程,可以总结为以下三步:集中注册 (Centralized Registration): 发布方 () 在启动时,将其广播地址注册到一个中心协调者 (Launcher) 那里。配置分发 (Configuration Distribution): 中心协调者 (Launcher) 在创建订阅方进程 (API Server) 时,将发布方的地址作为启动配置的一部分传递给它。直接连接 (Direct Connection): 订阅方 (API Server) 使用这个获得的地址,创建。

2026-03-03 16:29:41 323

原创 【vllm】 DP并行2

这段代码是一个职责划分的逻辑开关。离线工作者: 只关心自己。集群总指挥 (rank 0): 必须关心所有人(所有普通计算节点 (rank > 0): 只关心自己手下的人(在自己节点上启动的通过这种方式,vLLM 确保了在复杂的分布式部署中,每个进程都有明确的职责,启动和同步过程既完整又高效。这是一个非常好的问题,因为它触及了理解这段代码的关键!这里的**“我”指的是当前正在执行这个函数的那个vllm serve进程**。让我们把这个概念具象化。

2026-03-03 15:58:37 394

原创 【vllm】 DP并行代码解析

好的,我们来详细解析 这个函数的作用、它生成的地址是什么样子,以及它在 vLLM 架构中的用途。这个函数的核心作用是生成一个用于 ZMQ 通信的地址字符串。在 vLLM 的分布式架构中,不同的进程(如 API Server、Engine Core、DP Coordinator)需要相互通信。ZMQ 是它们之间通信的“高速公路”。要在这条高速公路上通信,每个通信端点都需要一个唯一的“地址”,就像房子需要门牌号一样。 就是 vLLM 内部用来**动态地、规范地创建这些“门牌号”**的工具函数。它根据部署模式(

2026-03-03 13:17:37 418

原创 【vllm】spawn

您发现的。

2026-03-03 12:39:38 298

原创 【vllm】run_multi_api_server

惊群问题是指当多个进程(或线程)同时等待同一个事件时,事件发生会唤醒所有等待的进程,但最终只有一个进程能成功处理该事件,其余被唤醒的进程发现事件已被处理,只能重新进入休眠。这种不必要的唤醒会造成大量的上下文切换和 CPU 浪费,降低系统吞吐量。一个主进程创建监听套接字(listen socket),然后 fork 出多个子进程。所有子进程都继承了这个监听套接字的文件描述符,并都调用accept()等待新连接。当一个新连接到达时,所有阻塞在accept()

2026-03-03 12:24:17 478

原创 【vllm】 DP并行

serve.py文件是 vLLM 服务化部署的“指挥中心”。它像一个经验丰富的系统管理员,根据用户的配置要求,选择最合适的部署策略,并精确地启动、连接和监控所有必需的后台服务进程,同时确保在服务结束或出现问题时能够干净利落地清理所有资源。它巧妙地利用了ZMQ、共享套接字和上下文管理器等技术,来构建一个健壮、可扩展的分布式推理系统。

2026-03-03 11:34:28 348

原创 【vllm】DP并行

内部负载均衡 (Internal Load Balancing)内部负载均衡 (Internal Load Balancing) 是 vLLM 数据并行部署的一种模式,其中系统在内部自动处理请求在多个数据并行引擎之间的分发,对外暴露单一的 API 端点。 1在内部负载均衡模式下,vLLM 通过以下组件实现负载均衡:DP Coordinator 进程:负责收集各 DP 引擎的统计信息并发布给前端进程用于负载均衡决策 2统计信息收集:每个 DP 引擎收集运行中和等待中的请求数量,通过 ZMQ 套接字发布给协调器

2026-03-03 11:09:25 355

原创 [大模型推理] @contextlib.contextmanager

是非阻塞的,它只负责启动子进程。子进程的就绪状态需要通过进程间通信(如 ZMQ 握手)来确认。这种模式在需要并发启动多个长时间运行的后台进程时非常常见,既能利用并行启动的优势,又能通过同步机制保证系统的一致状态。什么情况下使用with 呢?我们写代码时怎么判断launch_core_engines 是否应该用context在 Python 中,with语句用于管理上下文管理器,它的核心作用是确保在进入和退出某个代码块时,自动执行预定义的设置和清理操作。

2026-03-02 15:06:06 573

原创 【大模型训练】S-LORA: SERVING THOUSANDS OF CONCURRENT LORA ADAPTERS

基础模型:有一个巨大的、预训练好的模型,它的权重我们称之为W。LoRA适配器:为了适应新任务,我们不改变W,而是训练了两个非常小的矩阵,A和B。数学原理:在推理时,一个输入x经过一个应用了LoRA的层,其计算方式是。“合并”就是指在推理前,预先计算出一个新的权重矩阵W_new这里的A * B会得到一个和W尺寸完全相同的“增量矩阵”(尽管这个增量矩阵是低秩的)。然后,我们将这个增量矩阵直接加到原始权重W上,得到一个新的、完整的权重矩阵W_new。GPU 内存决定了“同时能处理多少”

2026-03-02 10:08:00 533

原创 【LLM应用开发原理】Agent 使用

你 (开发者): (Step 1) 准备好工具清单(tools参数),告诉模型它有什么能力。用户: 提出请求 (“查下北京天气”)。模型 (LLM): (Step 2) 理解用户意图,匹配到工具,并从用户的话里提取出参数。然后暂停,把这个“调用请求”返回给你的代码。你 (开发者) 的代码: 接收到模型的“调用请求”。你的代码解析出函数名是,参数是。于是,你的代码真正地去调用一个天气API、查询数据库或执行任何你写好的函数。你 (开发者) 的代码: 得到了天气结果,比如 “北京今天晴,25摄氏度”。

2026-02-27 20:20:27 709

原创 Constrained Decoding - 让大模型100%生成符合schema的结构化输出

https://zhuanlan.zhihu.com/p/14867078311

2026-02-27 20:11:01 323

原创 [计算机网络]HTTP、WebSocket、gRPC

特性HTTPWebSocketgRPCHTTP转发本质通信协议通信协议通信协议/框架网络行为/模式通信模型请求-响应 (单向)全双工 (双向)多样 (单向/双向流)代理/中继连接方式非持久 (或短时复用)持久持久 (基于HTTP/2)取决于其使用的协议数据格式文本 (JSON, XML等)二进制 (帧)二进制 (Protobuf)传递原始请求性能开销大,延迟较高开销小,低延迟性能极高,低延迟自身会引入少量延迟应用场景Web浏览, REST API实时通信, 消息推送。

2026-02-27 17:00:22 381

原创 【大模型推理】 通过TokenWeave 学习chunked prefill 的缺点。

预填充 (Prefill):一次性并行处理用户输入的整个提示(Prompt)。这个阶段计算量大,但只做一次。解码 (Decoding):逐个生成回复的token。每个token的生成都需要一次模型的前向传播。如果一个用户的提示非常长(比如几千个token),一次性完成整个预填充阶段会花费很长时间。在这段时间里,其他正在等待解码的用户的请求就会被阻塞,导致它们的TBT变得非常高。分块预填充就是为了解决这个问题:它将一个长提示的预填充任务**切分成多个小块(Chunks)**来执行。

2026-02-12 15:53:26 836

原创 【大模型推理】TokenWeave

即使在使用NVLink等高速互连技术连接的GPU上,大型语言模型(LLM)的分布式推理也会引入高达20%的开销。为了减轻这些开销,已提出了多种技术,它们将计算分解为更细粒度的任务,并在子任务完成时将通信与计算重叠。然而,在GPU上将大型计算分解为许多小型计算会产生开销。此外,通信本身也会占用许多流式多处理器(SM),这进一步增加了开销。我们提出TokenWeave来应对这些挑战。TokenWeave提出了一种。

2026-02-12 15:52:02 560

原创 [cuda]TokenWeave

在分布式系统中,通过重新排序计算与通信,并借助融合内核消除冗余,可实现“计算换通信”的反直觉优化。对于百亿/千亿参数模型,此类融合可将单层延迟降低 20% 以上,是继张量并行、序列并行后的又一重要优化维度。AllReduce 后每个 GPU 得到完整张量每个 GPU 只计算完整张量的一个切片,其余部分补零。AllReduce 的求和语义将这些零和有效值相加,使得每个 GPU 获得所有切片的拼接结果。这是一种实现简单、易于融合的通信模式,尤其适合 Transformer 中需要完整张量的后续计算。

2026-02-12 15:25:35 1004

原创 [cuda]wave quantization

下一步学习。

2026-02-12 11:34:26 76

原创 【大模型推理】TokenWeave

即使在使用NVLink等高速互连技术连接的GPU上,大型语言模型(LLM)的分布式推理也会引入高达20%的开销。为了减轻这些开销,已提出了多种技术,它们将计算分解为更细粒度的任务,并在子任务完成时将通信与计算重叠。然而,在GPU上将大型计算分解为许多小型计算会产生开销。此外,通信本身也会占用许多流式多处理器(SM),这进一步增加了开销。我们提出TokenWeave来应对这些挑战。TokenWeave提出了一种。

2026-02-12 11:32:15 879

原创 【大模型学习推理】 profile 学习

SGLang 服务器接收到一个请求,并将其与其他请求批处理后,在一个采用张量并行的多 GPU 环境中,执行 Qwen3-MoE 模型的一个 Transformer 层的计算。关键步骤是:调度与分发:SGLang 调度器将请求交给一个 Tensor Parallelism Worker。进入模型层:代码执行进入 Qwen3-MoE 模型的一个 Decoder Layer。MoE 路由与通信。

2026-02-12 11:09:42 838

原创 【大模型学习cuda】入们第一个例子-向量和

✦ CUDA 程序成功在 GPU 上运行并完成了向量加法计算!编译和执行都已成功。

2026-02-07 21:22:36 205

原创 【RL]权重更新

好的,我们来把这个例子彻底讲清楚,搞明白这个条件到底在做什么。首先,意味着。我们总共有8个,它们的rank从 0 到 7。

2026-01-30 12:04:00 813

原创 【RL]分离部署与共置模式详解

框架通过函数判断两个worker是否共置1# 部分重叠的情况返回False。

2026-01-30 12:03:01 1003

原创 【RL]分离部署与共置模式详解

框架通过函数判断两个worker是否共置1# 部分重叠的情况返回False。

2026-01-30 11:48:06 505

原创 【RL】 actor组之间的关系

而不是多个worker组成一个TP。

2026-01-30 11:25:46 850

原创 【Rl】权重更新

是ROLL框架中负责的核心组件,主要用于将训练集群的模型参数同步到推理集群。

2026-01-30 11:17:54 889

原创 【R L】 worker与GPU进程数的关系?

一个cluster内的,而是指一个包含多个Worker的集群,每个Worker是一个独立的Ray actor进程。

2026-01-30 10:37:43 571

数字滤波器

数字滤波器设计及应用综合设计,各种matlab,各种程序

2017-12-24

小功率调幅发射机仿真报告

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

MATLAB频谱图

MATLAB关于频谱分析自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

小功率调幅发射机

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

电子线路课程设计

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

交通灯VHDL设计

很好用的交通灯,伴有铃声的程序,实现紧急状况的显示,

2017-12-27

电容振荡器

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

labview 2016y英文版安装及破解教程

详细的介绍了LabVIEW安装过程中遇到的问题以及解决方案,以及可能出现版本的不兼容的问题的操作

2017-12-27

模拟通信中信号角度的调制与解调

5.8基于Labview实现FM调制与检调 5.8.1相应参数设置 载波频率:50 幅度:2 调制信号频率:50 幅度:2 5.8.2 labview 程序框图 5.8.3正弦波调相

2018-04-20

labview实例

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除