- 博客(739)
- 资源 (10)
- 收藏
- 关注
原创 A Model-Driven Deep Learning Method for Normalized Min-Sum LDPC Decoding
来源Q. Wang, S. Wang, H. Fang, L. Chen, L. Chen and Y. Guo, “A Model-Driven Deep Learning Method for Normalized Min-Sum LDPC Decoding,” 2020 IEEE International Conference on Communications Workshops (ICC Workshops), Dublin, Ireland, 2020, pp. 1-6, doi: 10.1
2020-09-07 14:09:38
1089
原创 每日强化学习
20200901强化学习阅读:https://blog.csdn.net/qq_30615903/article/details/80739243
2020-09-01 15:23:39
167
原创 Relation extraction文章
Others2018No.FigureTitleAuthorsPub.Links5CASREL:A Novel Cascade Binary Tagging Framework for Relational Triple ExtractionKun Ho Kim, Oisin Mac Aodha, Pietro PeronaCVPR 2018 (Spotlight)paper4[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xk
2020-06-12 07:58:29
873
原创 凸优化之内点法
Convex Optimization Stephen Boyd Department of Electrical Engineering Stanford University 第11章本文为笔者结合原书及博客https://blog.csdn.net/dymodi/article/details/46441783 记录自己相关解释原始问题原始问题对应的拉格朗日公式为:利用障碍函...
2020-04-05 11:37:35
1825
原创 GloVe: Global Vectors for Word Representation必记
关于算法原理参考:下面是Relation with skip gramskip gram:接下来在整个corPus 中训练:但在vast corpus 难以求所有的Qi,jQ_{i,j}Qi,j,采用近似但对于两分布中的交叉熵损失是有弊端的:即低概率高权值并且上式中的Qi,jQ_{i,j}Qi,j还是难以normalized,因此不归一化带来的问题是Qhat,Pha...
2020-03-04 11:41:32
294
原创 semi -supervised classification with graph convolutional networks学习必记
1 主要解决的问题半监督学习:用于少量节点标签未知,例如文本、citation network、知识图谱分类2 主要思想采用图卷积中的一阶局部近似(即K=1),这部分的理解可以参考Chebyshev多项式作为GCN卷积核当K=1 时有两个参数,模型scales linearly in the number of graph edges ,同时可以表征局部图结构和节点的特征:3. 半...
2020-02-19 14:27:03
428
原创 Convolutional Sequence to Sequence Learning学习心得
为什么使用CNN学习序列表示和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如下图。和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如上图。Hierarchy representation如图1,只需要三次CNN operation ,而需要 7 次 r...
2020-02-18 16:25:43
690
原创 Sequence to Sequence Learning with Neural Networks学习笔记
论文的主要创新点提出了序列到序列的学习方法提出的背景DNN的限制:输入和输出向量维度固定,实际上很多序列问题中的序列长度不是已知先验单个RNN 的限制:输入和输出等长,且要一一对齐且对齐已知,无法应用到输入输出不等长且对应关系为非montonic解决方案两个RNN理论可行一个负责将输入充列map 为固定大小的vector(背景向量,含有整个输入句子的信息),另一个RNN将背景向列...
2020-02-17 16:44:20
372
原创 Attention Is All You Need(Transformer )
今天是2020年2月1日,笔者学习了Attention Is All You Need(Transformer )论文,可以在sequence to sequence 模型中用multi head self -attention 代替RNN,可以并行计算输出,其中multi head 的作用可以集成不同的上下文attention,由于knowledge leve有限,代码层面有待学习...
2020-02-01 16:54:11
205
原创 自然语言处理(机器翻译IBM模型 系列)
机器翻译方法概述直接转换法基于规则的翻译方法基于中间语言的翻译方法基于语料库的翻译方法- 基于事例的翻译方法- 统计翻译方法- 神经网络机器翻译基于规则的翻译过程分成6个步骤:(a) 对源语言句子进行词法分析(b) 对源语言句子进行句法/语义分析© 源语言句子结构到译文结构的转换(d) 译文句法结构生成(e) 源语言词汇到译文词汇的转换(f ) 译文词法选择与生成...
2019-12-25 16:29:35
3910
原创 【vllm】DP 负载均衡
Hybrid Load Balancing = (外部的、粗粒度的 HTTP 流量分发) + (内部的、精细化的本地引擎调度)所以,“Hybrid” 这个词非常贴切,因为它不是单纯的外部模式(因为节点内部有智能调度),也不是单纯的内部模式(因为流量的初次分发是由外部完成的,且调度范围是本地化的)。对比项内部负载均衡 (Internal)外部负载均衡 (External)混合负载均衡 (Hybrid)API 入口单一入口 (主节点)多个独立入口多个节点级入口负载均衡器。
2026-03-03 16:47:16
719
原创 【socket] 发布与订阅
zmq.XPUB是一个功能强大的套接字类型,它让发布者“看见”订阅者,从而可以实现更灵活的消息分发逻辑。通过结合XSUB和zmq.proxy函数,可以轻松构建高性能的消息代理。希望以上内容能帮助你理解和使用XPUB。
2026-03-03 16:34:10
408
原创 【vllm】dp 并行。Coordinator订阅与发布
订阅方发现发布方的过程,可以总结为以下三步:集中注册 (Centralized Registration): 发布方 () 在启动时,将其广播地址注册到一个中心协调者 (Launcher) 那里。配置分发 (Configuration Distribution): 中心协调者 (Launcher) 在创建订阅方进程 (API Server) 时,将发布方的地址作为启动配置的一部分传递给它。直接连接 (Direct Connection): 订阅方 (API Server) 使用这个获得的地址,创建。
2026-03-03 16:29:41
323
原创 【vllm】 DP并行2
这段代码是一个职责划分的逻辑开关。离线工作者: 只关心自己。集群总指挥 (rank 0): 必须关心所有人(所有普通计算节点 (rank > 0): 只关心自己手下的人(在自己节点上启动的通过这种方式,vLLM 确保了在复杂的分布式部署中,每个进程都有明确的职责,启动和同步过程既完整又高效。这是一个非常好的问题,因为它触及了理解这段代码的关键!这里的**“我”指的是当前正在执行这个函数的那个vllm serve进程**。让我们把这个概念具象化。
2026-03-03 15:58:37
394
原创 【vllm】 DP并行代码解析
好的,我们来详细解析 这个函数的作用、它生成的地址是什么样子,以及它在 vLLM 架构中的用途。这个函数的核心作用是生成一个用于 ZMQ 通信的地址字符串。在 vLLM 的分布式架构中,不同的进程(如 API Server、Engine Core、DP Coordinator)需要相互通信。ZMQ 是它们之间通信的“高速公路”。要在这条高速公路上通信,每个通信端点都需要一个唯一的“地址”,就像房子需要门牌号一样。 就是 vLLM 内部用来**动态地、规范地创建这些“门牌号”**的工具函数。它根据部署模式(
2026-03-03 13:17:37
418
原创 【vllm】run_multi_api_server
惊群问题是指当多个进程(或线程)同时等待同一个事件时,事件发生会唤醒所有等待的进程,但最终只有一个进程能成功处理该事件,其余被唤醒的进程发现事件已被处理,只能重新进入休眠。这种不必要的唤醒会造成大量的上下文切换和 CPU 浪费,降低系统吞吐量。一个主进程创建监听套接字(listen socket),然后 fork 出多个子进程。所有子进程都继承了这个监听套接字的文件描述符,并都调用accept()等待新连接。当一个新连接到达时,所有阻塞在accept()
2026-03-03 12:24:17
478
原创 【vllm】 DP并行
serve.py文件是 vLLM 服务化部署的“指挥中心”。它像一个经验丰富的系统管理员,根据用户的配置要求,选择最合适的部署策略,并精确地启动、连接和监控所有必需的后台服务进程,同时确保在服务结束或出现问题时能够干净利落地清理所有资源。它巧妙地利用了ZMQ、共享套接字和上下文管理器等技术,来构建一个健壮、可扩展的分布式推理系统。
2026-03-03 11:34:28
348
原创 【vllm】DP并行
内部负载均衡 (Internal Load Balancing)内部负载均衡 (Internal Load Balancing) 是 vLLM 数据并行部署的一种模式,其中系统在内部自动处理请求在多个数据并行引擎之间的分发,对外暴露单一的 API 端点。 1在内部负载均衡模式下,vLLM 通过以下组件实现负载均衡:DP Coordinator 进程:负责收集各 DP 引擎的统计信息并发布给前端进程用于负载均衡决策 2统计信息收集:每个 DP 引擎收集运行中和等待中的请求数量,通过 ZMQ 套接字发布给协调器
2026-03-03 11:09:25
355
原创 [大模型推理] @contextlib.contextmanager
是非阻塞的,它只负责启动子进程。子进程的就绪状态需要通过进程间通信(如 ZMQ 握手)来确认。这种模式在需要并发启动多个长时间运行的后台进程时非常常见,既能利用并行启动的优势,又能通过同步机制保证系统的一致状态。什么情况下使用with 呢?我们写代码时怎么判断launch_core_engines 是否应该用context在 Python 中,with语句用于管理上下文管理器,它的核心作用是确保在进入和退出某个代码块时,自动执行预定义的设置和清理操作。
2026-03-02 15:06:06
573
原创 【大模型训练】S-LORA: SERVING THOUSANDS OF CONCURRENT LORA ADAPTERS
基础模型:有一个巨大的、预训练好的模型,它的权重我们称之为W。LoRA适配器:为了适应新任务,我们不改变W,而是训练了两个非常小的矩阵,A和B。数学原理:在推理时,一个输入x经过一个应用了LoRA的层,其计算方式是。“合并”就是指在推理前,预先计算出一个新的权重矩阵W_new这里的A * B会得到一个和W尺寸完全相同的“增量矩阵”(尽管这个增量矩阵是低秩的)。然后,我们将这个增量矩阵直接加到原始权重W上,得到一个新的、完整的权重矩阵W_new。GPU 内存决定了“同时能处理多少”
2026-03-02 10:08:00
533
原创 【LLM应用开发原理】Agent 使用
你 (开发者): (Step 1) 准备好工具清单(tools参数),告诉模型它有什么能力。用户: 提出请求 (“查下北京天气”)。模型 (LLM): (Step 2) 理解用户意图,匹配到工具,并从用户的话里提取出参数。然后暂停,把这个“调用请求”返回给你的代码。你 (开发者) 的代码: 接收到模型的“调用请求”。你的代码解析出函数名是,参数是。于是,你的代码真正地去调用一个天气API、查询数据库或执行任何你写好的函数。你 (开发者) 的代码: 得到了天气结果,比如 “北京今天晴,25摄氏度”。
2026-02-27 20:20:27
709
原创 Constrained Decoding - 让大模型100%生成符合schema的结构化输出
https://zhuanlan.zhihu.com/p/14867078311
2026-02-27 20:11:01
323
原创 [计算机网络]HTTP、WebSocket、gRPC
特性HTTPWebSocketgRPCHTTP转发本质通信协议通信协议通信协议/框架网络行为/模式通信模型请求-响应 (单向)全双工 (双向)多样 (单向/双向流)代理/中继连接方式非持久 (或短时复用)持久持久 (基于HTTP/2)取决于其使用的协议数据格式文本 (JSON, XML等)二进制 (帧)二进制 (Protobuf)传递原始请求性能开销大,延迟较高开销小,低延迟性能极高,低延迟自身会引入少量延迟应用场景Web浏览, REST API实时通信, 消息推送。
2026-02-27 17:00:22
381
原创 【大模型推理】 通过TokenWeave 学习chunked prefill 的缺点。
预填充 (Prefill):一次性并行处理用户输入的整个提示(Prompt)。这个阶段计算量大,但只做一次。解码 (Decoding):逐个生成回复的token。每个token的生成都需要一次模型的前向传播。如果一个用户的提示非常长(比如几千个token),一次性完成整个预填充阶段会花费很长时间。在这段时间里,其他正在等待解码的用户的请求就会被阻塞,导致它们的TBT变得非常高。分块预填充就是为了解决这个问题:它将一个长提示的预填充任务**切分成多个小块(Chunks)**来执行。
2026-02-12 15:53:26
836
原创 【大模型推理】TokenWeave
即使在使用NVLink等高速互连技术连接的GPU上,大型语言模型(LLM)的分布式推理也会引入高达20%的开销。为了减轻这些开销,已提出了多种技术,它们将计算分解为更细粒度的任务,并在子任务完成时将通信与计算重叠。然而,在GPU上将大型计算分解为许多小型计算会产生开销。此外,通信本身也会占用许多流式多处理器(SM),这进一步增加了开销。我们提出TokenWeave来应对这些挑战。TokenWeave提出了一种。
2026-02-12 15:52:02
560
原创 [cuda]TokenWeave
在分布式系统中,通过重新排序计算与通信,并借助融合内核消除冗余,可实现“计算换通信”的反直觉优化。对于百亿/千亿参数模型,此类融合可将单层延迟降低 20% 以上,是继张量并行、序列并行后的又一重要优化维度。AllReduce 后每个 GPU 得到完整张量每个 GPU 只计算完整张量的一个切片,其余部分补零。AllReduce 的求和语义将这些零和有效值相加,使得每个 GPU 获得所有切片的拼接结果。这是一种实现简单、易于融合的通信模式,尤其适合 Transformer 中需要完整张量的后续计算。
2026-02-12 15:25:35
1004
原创 【大模型推理】TokenWeave
即使在使用NVLink等高速互连技术连接的GPU上,大型语言模型(LLM)的分布式推理也会引入高达20%的开销。为了减轻这些开销,已提出了多种技术,它们将计算分解为更细粒度的任务,并在子任务完成时将通信与计算重叠。然而,在GPU上将大型计算分解为许多小型计算会产生开销。此外,通信本身也会占用许多流式多处理器(SM),这进一步增加了开销。我们提出TokenWeave来应对这些挑战。TokenWeave提出了一种。
2026-02-12 11:32:15
879
原创 【大模型学习推理】 profile 学习
SGLang 服务器接收到一个请求,并将其与其他请求批处理后,在一个采用张量并行的多 GPU 环境中,执行 Qwen3-MoE 模型的一个 Transformer 层的计算。关键步骤是:调度与分发:SGLang 调度器将请求交给一个 Tensor Parallelism Worker。进入模型层:代码执行进入 Qwen3-MoE 模型的一个 Decoder Layer。MoE 路由与通信。
2026-02-12 11:09:42
838
原创 【R L】 worker与GPU进程数的关系?
一个cluster内的,而是指一个包含多个Worker的集群,每个Worker是一个独立的Ray actor进程。
2026-01-30 10:37:43
571
小功率调幅发射机仿真报告
2018-03-18
MATLAB频谱图
2018-03-18
小功率调幅发射机
2018-03-18
电子线路课程设计
2018-03-18
电容振荡器
2018-03-18
模拟通信中信号角度的调制与解调
2018-04-20
labview实例
2018-03-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅