- 博客(183)
- 资源 (33)
- 收藏
- 关注
原创 IntelliSense: 无法打开 源 文件 “ui_mainwindow.h“ demo\qtdemosrc\mainwindow
配置正确(通常 Qt VS Tools 会自动处理)。在解决方案资源管理器中,右键。
2026-03-22 20:22:35
267
转载 开源替代Cursor与Windsurf:VSCode Cline插件集成DeepSeek的终极开发方案
2025.08.20 21:24浏览量:514简介:本文深度解析Cursor和Windsurf的开源替代方案,详细介绍如何通过VSCode Cline插件与DeepSeek大模型结合构建高效开发环境,包括技术选型对比、具体配置步骤、实战案例及性能优化策略。
2026-03-20 11:09:12
18
原创 Windows 远程共享linux系统的方法
可以参照上面在方式处理,也可以手动连接2. 安装完成后打开 cmd这个M: 是一个本地不存在在盘符,一会要挂载到这个虚拟盘3. 然后输入远端在用户名和密码就可以了。
2026-02-07 14:34:01
88
原创 LightGBM 从入门到精通 (来自deepseek)
LightGBM(Light Gradient Boosting Machine)是微软开发的一款基于决策树算法的梯度提升框架,专为高效和可扩展的机器学习任务设计。基于直方图的决策树算法:将连续特征离散化为k个整数,减少内存占用和计算复杂度Leaf-wise(按叶子)生长策略:相比传统的Level-wise策略,减少更多损失,获得更好的精度单边梯度采样(GOSS):保留大梯度的样本,对小梯度样本进行随机采样互斥特征捆绑(EFB):将互斥的特征捆绑在一起,减少特征维度python。
2026-01-23 22:23:22
1005
原创 mpirun的运行原理 (来自deepseek)
组件角色类比mpirun总司令公司的CEO,制定总体战略(命令行参数)。orted经理层公司的中层经理(本地和远程)。他们听从CEO,管理基层员工。MPI 进程工作者公司的基层员工,负责具体工作(执行计算)。他们只和直属经理打交道。管理网络内部管理通道经理之间的电话会议/内部邮件系统。数据网络工作协作通道员工之间为了完成项目而进行的直接沟通和文件传输。PMI工作流程接口员工向经理汇报工作和获取资源的标准化流程(如申请办公用品、获取同事联系方式)。
2025-11-12 15:15:51
750
原创 NCCL Reduce-Scatter 操作详解 (来自deepseek)
将所有进程的数据按元素进行某种操作(如求和、求最大值等):将结果数据分散到各个进程中换句话说,Reduce-Scatter 首先对所有输入缓冲区进行逐元素的 Reduce 操作,然后将结果均匀地分散到所有输出缓冲区中。
2025-11-05 17:10:39
788
原创 Mpi多机通信环境搭建(2台机器)
用以下命令在你的电脑上安装MPI二、给机器命名它们的ip地址分别是10.0.62.86,10.0.62.87,每次都要输入这么一长串数字,还是比较繁琐的,所以我们到hosts里去给这两个ip起个名字。在两台机器的分别执行下面的命令并添加下面的内容://添加下面内容基本思路:生成各自的ssh key -> 把自己的公钥加入authorized_keys -> 用scp把公钥传给另一方 -> 对方也把公钥加入authorized_keys并传输回来 -> 完成免密。
2025-10-11 13:42:50
642
原创 mpi 怎么测试及确认2台机器在同时工作 (来自deepseek)
printf("=== 总计算时间: %.2f 秒 ===\n", end_time - start_time);printf("\n=== 最终结果: π ≈ %.15f ===\n", global_pi);printf("\n=== 所有 %d 个进程已启动,运行在 %d 台机器上 ===\n",printf("\n=== 通信测试完成: 所有机器间通信正常 ===\n");printf("=== 性能验证: 所有机器协同工作完成计算 ===\n");// 模拟计算工作负载 - 计算圆周率的一部分。
2025-10-11 11:45:00
411
原创 NCCL中GDR的概念 (来自deepseek)
简单来说,GDR就像是给跨服务器的GPU之间修建了一条"数据传输高速公路",让它们能直接通过网卡交换数据,不必再绕行CPU和主机内存这座"市区"。NCCL利用这项技术,极大地优化了多机分布式训练中的通信环节,是现代大规模深度学习训练不可或缺的加速利器。
2025-10-09 11:08:50
722
原创 NCCL Ring Reduce 数据流处理过程
执行 recvReduceCopy (从 Rank 3 接收,Reduce后,并把数据保存到接收buf)执行 recvReduceSend (从 Rank 1 接收,Reduce 后发送给 Rank 3)执行 recvReduceSend (从 Rank 2 接收,Reduce 后发送给 Rank 0)=== NCCL Ring Reduce 数据流模拟 ===总 rank 数量: 4, root: Rank 0。执行 send (发送给 Rank 2)
2025-09-26 10:50:39
255
原创 HPC集群是指什么 (来自deepseek)
HPC集群本质上是一个通过软件将大量标准硬件资源整合成一台虚拟的、能力超强的计算机的系统。它旨在解决世界上最复杂、计算最密集的问题,是推动前沿科技发展的关键基础设施。希望这个解释能帮助您全面理解HPC集群。如果您对某个具体部分(如调度软件Slurm如何工作)感兴趣,我们可以继续深入探讨。
2025-09-24 16:31:33
588
原创 nccl中的rdma是指什么 (来自deepseek)
RDMA的全称是。传统网络通信(如TCP/IP):就像你要从一个城市的A仓库(服务器A的内存)搬东西到B仓库(服务器B的内存)。你需要:打电话给B仓库的管理员(CPU),申请把货物搬进来。A仓库的工人(CPU)把货物搬到卡车上(数据拷贝到内核缓冲区)。卡车开到B仓库(网络传输)。B仓库的工人(CPU)再把货物从卡车卸到B仓库里(数据从内核缓冲区拷贝到最终内存)。这个过程CPU深度参与,需要多次数据拷贝,开销很大。RDMA通信:就像你拥有了一把“魔法钥匙”。
2025-09-24 15:15:55
542
原创 GPU内存结构解析 (来自deepseek)
分层设计:GPU内存是分层的,越靠近SM核心,速度越快,容量越小。编程的目标是尽可能让数据留在高速内存中(寄存器和共享内存),减少对低速全局内存的访问。并行带宽 vs 延迟:GPU不追求单个访问的低延迟,而是用巨大的并行带宽来掩盖延迟。成千上万个线程交替执行,当一个线程束在等待内存数据时,SM可以立即切换到另一个就绪的线程束执行计算。程序员可控性共享内存是性能优化的核心。程序员需要主动地将数据从全局内存搬运到共享内存,促进线程协作,避免重复访问全局内存。访问模式至关重要:对于全局内存,合并访问。
2025-09-16 10:47:43
1428
转载 NCCL发布论文啦?快来看看 (part-2)
NCCL提供6种算法:Ring,Tree,CollNet Direct,CollNet Chain,NVLS,NVLS Tree(在较新的版本还支持PAT等其他算法,本文分析的版本暂不关注)。此外,NCCL还支持3种通信协议:Simple,LL,LL128。但需要注意,并非每种算法都能与每种协议配合使用,且它们的可用性可能会受到硬件特性(尤其是 LL128)以及运行时约束的影响。下表汇总了 5 种集合通信操作所支持的算法与协议。
2025-08-08 10:59:35
502
原创 cuda中的线程块和线程束的区别以及什么是串行化 (来自deepseek)
线程块是 CUDA 编程中的基本执行单位,由一组线程(Threads)组成。程序员在启动核函数时显式指定线程块的布局(如。
2025-07-29 16:02:39
1095
原创 nccl中__syncthreads的作用及例子 (来自deepseek)
是 CUDA 中的一个关键同步函数,用于协调同一个线程块(block)内的所有线程。// 等待所有线程到达这里,确保 shared_data 已写入。Thread 1: value = 0 // 未同步,可能读到未初始化的值。:让同一个线程块的所有线程在某个点同步,确保前面的操作对所有线程可见。之前就读取它,导致读取到错误的值(可能是初始值 0 或随机值)。// 现在所有线程都能安全读取 shared_data。// 其他线程尝试读取 shared_data。确保所有线程完成对共享内存的写入后,再读取。
2025-07-28 16:35:32
446
转载 Ubuntu 20.04自动登录root用户
Ubuntu 20.04安装完成后,默认是没有root账户登录权限的。以下是通过创建普通用户获取管理员权限,修改配置和root账户密码,实现系统自动登录root账户的具体操作步骤。AutomaticLoginEnable=true # 设置为 true 以启用自动登录,无需输入密码。TimeLogin=root # 超时自动登录的用户名。重启后,系统将自动登录到 root 用户账户。按照提示输入并确认密码。修改完成后保存文件。
2025-07-20 07:13:31
451
原创 git追加提交git commit --amend
root@user:~#git add .root@user:~#git commit -m "feat: Modified to support 1 function"root@user:~#git push origin develop:refs/for/develop root@user:~#gitdir=$(git rev-parse --git-dir); scp -p -P 29418 user@gerrit.server:hooks/commit-msg ${gitdir}/hooks/roo
2025-07-08 16:03:49
321
原创 Could not install Gradle distribution from ‘services.gradle.org/distributions/gradle-8.12-bin.zip‘
替换为国内的源。
2025-07-06 20:55:18
274
原创 ubuntu 20.04内核版本降级操作步骤
5.15.0-139 先前的版本号。6. 更新grub配置,使修改生效。2. 安装指定版本的头文件和镜像。1. 确认降级的内核版本有效。8. 自动删除不需要的依赖包。5. 修改内核启动顺序。7. 删除指定内核版本。3. 安装tools。4. 安装extra。
2025-06-25 10:12:27
1268
原创 nccl的allreduce的例子
if (err!} while(0)if (res!} while(0)i < nDev;++i) {i < nDev;++i) {i < nDev;++i) {i < nDev;++i) {i < nDev;++i)return 0;
2025-06-12 15:45:40
527
原创 nccl的gather测试例子
if (err!} while(0)if (res!} while(0)i < size;i++)i < nDev;++i) {j < size;j++)elsei<nDev;i++)j < nDev;j++)i < nDev;++i) {i++)
2025-06-12 15:30:49
400
转载 GPU内存结构解析与优化方法
2024-01-14 20:00江西01GPU内存基本概念涉及对物理内存和逻辑内存的理解。物理内存指的是计算机中的实际硬件内存,如RAM模块和硬盘驱动器(HDD/SSD),而逻辑内存,又称虚拟内存,是操作系统和程序所访问的地址空间。在于,后者不总是与前者一一对应,而是由操作系统管理地址映射,为系统程序分配和管理内存。在GPU的逻辑内存中,块和线程被视为逻辑概念。要深入探讨如何在GPU上分配和管理内存,理解这些概念非常重要。接下来引入一个关键概念——scope。
2025-05-29 17:23:39
182
转载 UltraEdit-32 恢复到初始默认样式配置
002、然后找到打开“IDM Comp” 文件夹,将里面的文件夹“UltraEdit”整个给删除了,003、再打开 UltraEdit-32 就会发现UltraEdit-32就变成刚装完时候的样子了!001、打开“%APPDATA%” (不包括引号、复制到地址栏,然后回车就出来了),
2025-04-23 10:00:07
245
转载 使用 SSHFS 将远程服务器目录挂载到 Windows 本地
下载 WinFsp 和 SSHFS-Win 程序,安装好后,打开我的电脑,右键添加网络位置。
2025-04-14 15:35:16
266
原创 nccl中的LL、 LL128和Simple是指什么 (来自deepseek)
用于优化 GPU 之间的集体通信(如 AllReduce、Broadcast、ReduceScatter 等)。export NCCL_ALGO=Simple # 强制使用Simple。export NCCL_ALGO=LL,LL128,Simple # 按优先级选择。中等规模的参数同步(如大模型的梯度聚合)。,如模型梯度更新(小batch训练)。:最小化通信延迟(Latency)。使用更小的数据块(如8字节/线程)。(如1MB/块),减少通信次数。,适用于不同的通信场景。
2025-03-28 16:19:53
967
原创 nccl的框架结构图 (来自deepseek)
使其成为多 GPU 分布式训练的高性能通信库。)、TensorFlow、Horovod 等通过 NCCL API 调用集体通信。:NVIDIA 专用硬件集合通信网络(如 DGX 中的 NVSwitch)。数据分块(Chunking)、流水线(Pipelining)提高吞吐。:跨节点 RDMA(GPUDirect RDMA 绕过 CPU)。:NCCL 根据 GPU 数量、数据大小和拓扑自动选择最优算法。基于 Warp 优化的 GPU 内核(见前文解释)。:传统 GPU-CPU/GPU-GPU 通信。
2025-03-26 16:29:09
1917
原创 nccl中的proxy是指什么 (来自deepseek)
将通信任务(如数据搬运、同步)交给专门的代理线程(Proxy Thread)处理,允许计算线程(如 CUDA Kernel)继续执行。,以优化多 GPU 或多节点间的集体通信(如 AllReduce、Broadcast)的性能和资源利用率。在复杂的多 GPU 通信场景(如多线程调用 NCCL)中,Proxy 统一管理通信顺序,防止资源竞争。在非全连接的 GPU 拓扑(如多机多卡)中,Proxy 协调数据的中转路由。:统一调度跨 GPU 或跨节点的通信请求,减少竞争和死锁风险。
2025-03-26 16:11:46
729
IEEE1588_v1_v2.pdf
2021-01-27
exiv2 debug和release库 (版本号 0.23)
2018-12-25
libexif 0.6.21 的windows的运行库
2019-02-23
nccl kernel中的reduce调用过程的简单模拟,有助于理解reduce的处理流程
2025-07-11
android下选择图片文件夹并显示
2022-08-14
libplist for android
2022-05-27
ice-rfc5245.webarchive
2021-11-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅