自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(183)
  • 资源 (33)
  • 收藏
  • 关注

原创 IntelliSense: 无法打开 源 文件 “ui_mainwindow.h“ demo\qtdemosrc\mainwindow

配置正确(通常 Qt VS Tools 会自动处理)。在解决方案资源管理器中,右键。

2026-03-22 20:22:35 267

转载 开源替代Cursor与Windsurf:VSCode Cline插件集成DeepSeek的终极开发方案

2025.08.20 21:24浏览量:514简介:本文深度解析Cursor和Windsurf的开源替代方案,详细介绍如何通过VSCode Cline插件与DeepSeek大模型结合构建高效开发环境,包括技术选型对比、具体配置步骤、实战案例及性能优化策略。

2026-03-20 11:09:12 18

原创 qt的下载地址

https://download.qt.io/archive/qt

2026-03-15 18:40:44 15

原创 Windows 远程共享linux系统的方法

可以参照上面在方式处理,也可以手动连接2. 安装完成后打开 cmd这个M: 是一个本地不存在在盘符,一会要挂载到这个虚拟盘3. 然后输入远端在用户名和密码就可以了。

2026-02-07 14:34:01 88

原创 LightGBM 从入门到精通 (来自deepseek)

LightGBM(Light Gradient Boosting Machine)是微软开发的一款基于决策树算法的梯度提升框架,专为高效和可扩展的机器学习任务设计。基于直方图的决策树算法:将连续特征离散化为k个整数,减少内存占用和计算复杂度Leaf-wise(按叶子)生长策略:相比传统的Level-wise策略,减少更多损失,获得更好的精度单边梯度采样(GOSS):保留大梯度的样本,对小梯度样本进行随机采样互斥特征捆绑(EFB):将互斥的特征捆绑在一起,减少特征维度python。

2026-01-23 22:23:22 1005

转载 IBRC和IBGDA的概念

‌。

2025-11-12 16:51:21 319

原创 mpirun的运行原理 (来自deepseek)

组件角色类比mpirun总司令公司的CEO,制定总体战略(命令行参数)。orted经理层公司的中层经理(本地和远程)。他们听从CEO,管理基层员工。MPI 进程工作者公司的基层员工,负责具体工作(执行计算)。他们只和直属经理打交道。管理网络内部管理通道经理之间的电话会议/内部邮件系统。数据网络工作协作通道员工之间为了完成项目而进行的直接沟通和文件传输。PMI工作流程接口员工向经理汇报工作和获取资源的标准化流程(如申请办公用品、获取同事联系方式)。

2025-11-12 15:15:51 750

原创 nccl-tests中的算法带宽和总线带宽的概念 (来自deepseek)

从用户视角看到的有效数据传输速率。

2025-11-12 09:34:07 376

原创 NCCL Reduce-Scatter 操作详解 (来自deepseek)

将所有进程的数据按元素进行某种操作(如求和、求最大值等):将结果数据分散到各个进程中换句话说,Reduce-Scatter 首先对所有输入缓冲区进行逐元素的 Reduce 操作,然后将结果均匀地分散到所有输出缓冲区中。

2025-11-05 17:10:39 788

原创 Mpi多机通信环境搭建(2台机器)

用以下命令在你的电脑上安装MPI二、给机器命名它们的ip地址分别是10.0.62.86,10.0.62.87,每次都要输入这么一长串数字,还是比较繁琐的,所以我们到hosts里去给这两个ip起个名字。在两台机器的分别执行下面的命令并添加下面的内容://添加下面内容基本思路:生成各自的ssh key -> 把自己的公钥加入authorized_keys -> 用scp把公钥传给另一方 -> 对方也把公钥加入authorized_keys并传输回来 -> 完成免密。

2025-10-11 13:42:50 642

原创 mpi 怎么测试及确认2台机器在同时工作 (来自deepseek)

printf("=== 总计算时间: %.2f 秒 ===\n", end_time - start_time);printf("\n=== 最终结果: π ≈ %.15f ===\n", global_pi);printf("\n=== 所有 %d 个进程已启动,运行在 %d 台机器上 ===\n",printf("\n=== 通信测试完成: 所有机器间通信正常 ===\n");printf("=== 性能验证: 所有机器协同工作完成计算 ===\n");// 模拟计算工作负载 - 计算圆周率的一部分。

2025-10-11 11:45:00 411

原创 RoCE 的概念 (来自deepseek)

是一种网络协议,允许通过以太网实现,结合了RDMA的高性能和以太网的普及性。

2025-10-09 13:43:41 556

原创 NCCL中GDR的概念 (来自deepseek)

简单来说,GDR就像是给跨服务器的GPU之间修建了一条"数据传输高速公路",让它们能直接通过网卡交换数据,不必再绕行CPU和主机内存这座"市区"。NCCL利用这项技术,极大地优化了多机分布式训练中的通信环节,是现代大规模深度学习训练不可或缺的加速利器。

2025-10-09 11:08:50 722

原创 NCCL Ring Reduce 数据流处理过程

执行 recvReduceCopy (从 Rank 3 接收,Reduce后,并把数据保存到接收buf)执行 recvReduceSend (从 Rank 1 接收,Reduce 后发送给 Rank 3)执行 recvReduceSend (从 Rank 2 接收,Reduce 后发送给 Rank 0)=== NCCL Ring Reduce 数据流模拟 ===总 rank 数量: 4, root: Rank 0。执行 send (发送给 Rank 2)

2025-09-26 10:50:39 255

原创 HPC集群是指什么 (来自deepseek)

HPC集群本质上是一个通过软件将大量标准硬件资源整合成一台虚拟的、能力超强的计算机的系统。它旨在解决世界上最复杂、计算最密集的问题,是推动前沿科技发展的关键基础设施。希望这个解释能帮助您全面理解HPC集群。如果您对某个具体部分(如调度软件Slurm如何工作)感兴趣,我们可以继续深入探讨。

2025-09-24 16:31:33 588

原创 nccl中的rdma是指什么 (来自deepseek)

RDMA的全称是。传统网络通信(如TCP/IP):就像你要从一个城市的A仓库(服务器A的内存)搬东西到B仓库(服务器B的内存)。你需要:打电话给B仓库的管理员(CPU),申请把货物搬进来。A仓库的工人(CPU)把货物搬到卡车上(数据拷贝到内核缓冲区)。卡车开到B仓库(网络传输)。B仓库的工人(CPU)再把货物从卡车卸到B仓库里(数据从内核缓冲区拷贝到最终内存)。这个过程CPU深度参与,需要多次数据拷贝,开销很大。RDMA通信:就像你拥有了一把“魔法钥匙”。

2025-09-24 15:15:55 542

原创 GPU内存结构解析 (来自deepseek)

分层设计:GPU内存是分层的,越靠近SM核心,速度越快,容量越小。编程的目标是尽可能让数据留在高速内存中(寄存器和共享内存),减少对低速全局内存的访问。并行带宽 vs 延迟:GPU不追求单个访问的低延迟,而是用巨大的并行带宽来掩盖延迟。成千上万个线程交替执行,当一个线程束在等待内存数据时,SM可以立即切换到另一个就绪的线程束执行计算。程序员可控性共享内存是性能优化的核心。程序员需要主动地将数据从全局内存搬运到共享内存,促进线程协作,避免重复访问全局内存。访问模式至关重要:对于全局内存,合并访问。

2025-09-16 10:47:43 1428

转载 NCCL发布论文啦?快来看看 (part-2)

NCCL提供6种算法:Ring,Tree,CollNet Direct,CollNet Chain,NVLS,NVLS Tree(在较新的版本还支持PAT等其他算法,本文分析的版本暂不关注)。此外,NCCL还支持3种通信协议:Simple,LL,LL128。但需要注意,并非每种算法都能与每种协议配合使用,且它们的可用性可能会受到硬件特性(尤其是 LL128)以及运行时约束的影响。下表汇总了 5 种集合通信操作所支持的算法与协议。

2025-08-08 10:59:35 502

转载 NCCL发布论文啦?快来看看 (part-1)

偶然间看到下面这篇文章,发现Sylvain Jeaugey大佬也在其列,那必须观摩观摩。

2025-08-08 10:58:13 487

原创 cuda中的线程块和线程束的区别以及什么是串行化 (来自deepseek)

线程块是 CUDA 编程中的基本执行单位,由一组线程(Threads)组成。程序员在启动核函数时显式指定线程块的布局(如。

2025-07-29 16:02:39 1095

原创 nccl中__syncthreads的作用及例子 (来自deepseek)

是 CUDA 中的一个关键同步函数,用于协调同一个线程块(block)内的所有线程。// 等待所有线程到达这里,确保 shared_data 已写入。Thread 1: value = 0 // 未同步,可能读到未初始化的值。:让同一个线程块的所有线程在某个点同步,确保前面的操作对所有线程可见。之前就读取它,导致读取到错误的值(可能是初始值 0 或随机值)。// 现在所有线程都能安全读取 shared_data。// 其他线程尝试读取 shared_data。确保所有线程完成对共享内存的写入后,再读取。

2025-07-28 16:35:32 446

原创 clFlush和clFinish的区别 (来自deepseek)

clFlush和clFinish。

2025-07-25 11:30:24 397

转载 Ubuntu 20.04自动登录root用户

Ubuntu 20.04安装完成后,默认是没有root账户登录权限的。以下是通过创建普通用户获取管理员权限,修改配置和root账户密码,实现系统自动登录root账户的具体操作步骤。AutomaticLoginEnable=true # 设置为 true 以启用自动登录,无需输入密码。TimeLogin=root # 超时自动登录的用户名。重启后,系统将自动登录到 root 用户账户。按照提示输入并确认密码。修改完成后保存文件。

2025-07-20 07:13:31 451

原创 利用gdb在调试过程中读取指定地址的值

编译后的可执行文件名为: test。

2025-07-17 16:49:47 274

原创 git强制更新本地分支到最新状态

将本地分支强制重置为远程分支状态。- 下载远程所有分支的最新提交。

2025-07-16 11:15:17 212

原创 git追加提交git commit --amend

root@user:~#git add .root@user:~#git commit -m "feat: Modified to support 1 function"root@user:~#git push origin develop:refs/for/develop root@user:~#gitdir=$(git rev-parse --git-dir); scp -p -P 29418 user@gerrit.server:hooks/commit-msg ${gitdir}/hooks/roo

2025-07-08 16:03:49 321

原创 Could not install Gradle distribution from ‘services.gradle.org/distributions/gradle-8.12-bin.zip‘

替换为国内的源。

2025-07-06 20:55:18 274

原创 ubuntu 20.04内核版本降级操作步骤

5.15.0-139 先前的版本号。6. 更新grub配置,使修改生效。2. 安装指定版本的头文件和镜像。1. 确认降级的内核版本有效。8. 自动删除不需要的依赖包。5. 修改内核启动顺序。7. 删除指定内核版本。3. 安装tools。4. 安装extra。

2025-06-25 10:12:27 1268

原创 Qt 在线快速安装(切换到南京大学源)

下载安装文件后运行如下命令:

2025-06-15 14:14:45 359

原创 nccl的reduce例子

/ 检查结果(仅在GPU 0上)

2025-06-13 16:54:27 395

原创 nccl的allreduce的例子

if (err!} while(0)if (res!} while(0)i < nDev;++i) {i < nDev;++i) {i < nDev;++i) {i < nDev;++i) {i < nDev;++i)return 0;

2025-06-12 15:45:40 527

原创 nccl的gather测试例子

if (err!} while(0)if (res!} while(0)i < size;i++)i < nDev;++i) {j < size;j++)elsei<nDev;i++)j < nDev;j++)i < nDev;++i) {i++)

2025-06-12 15:30:49 400

原创 linux打印堆栈及定位函数调用顺序

1. 包含头文件2.加入打印函数i < nptrs;i++) {3. 得到如下输出4.解析文件地址。

2025-05-30 10:58:00 524

转载 GPU内存结构解析与优化方法

2024-01-14 20:00江西01GPU内存基本概念涉及对物理内存和逻辑内存的理解。物理内存指的是计算机中的实际硬件内存,如RAM模块和硬盘驱动器(HDD/SSD),而逻辑内存,又称虚拟内存,是操作系统和程序所访问的地址空间。在于,后者不总是与前者一一对应,而是由操作系统管理地址映射,为系统程序分配和管理内存。在GPU的逻辑内存中,块和线程被视为逻辑概念。要深入探讨如何在GPU上分配和管理内存,理解这些概念非常重要。接下来引入一个关键概念——scope。

2025-05-29 17:23:39 182

转载 UltraEdit-32 恢复到初始默认样式配置

002、然后找到打开“IDM Comp” 文件夹,将里面的文件夹“UltraEdit”整个给删除了,003、再打开 UltraEdit-32 就会发现UltraEdit-32就变成刚装完时候的样子了!001、打开“%APPDATA%” (不包括引号、复制到地址栏,然后回车就出来了),

2025-04-23 10:00:07 245

转载 使用 SSHFS 将远程服务器目录挂载到 Windows 本地

下载 WinFsp 和 SSHFS-Win 程序,安装好后,打开我的电脑,右键添加网络位置。

2025-04-14 15:35:16 266

原创 nccl中的LL、 LL128和Simple是指什么 (来自deepseek)

用于优化 GPU 之间的集体通信(如 AllReduce、Broadcast、ReduceScatter 等)。export NCCL_ALGO=Simple # 强制使用Simple。export NCCL_ALGO=LL,LL128,Simple # 按优先级选择。中等规模的参数同步(如大模型的梯度聚合)。,如模型梯度更新(小batch训练)。:最小化通信延迟(Latency)。使用更小的数据块(如8字节/线程)。(如1MB/块),减少通信次数。,适用于不同的通信场景。

2025-03-28 16:19:53 967

原创 nccl的框架结构图 (来自deepseek)

使其成为多 GPU 分布式训练的高性能通信库。)、TensorFlow、Horovod 等通过 NCCL API 调用集体通信。:NVIDIA 专用硬件集合通信网络(如 DGX 中的 NVSwitch)。数据分块(Chunking)、流水线(Pipelining)提高吞吐。:跨节点 RDMA(GPUDirect RDMA 绕过 CPU)。:NCCL 根据 GPU 数量、数据大小和拓扑自动选择最优算法。基于 Warp 优化的 GPU 内核(见前文解释)。:传统 GPU-CPU/GPU-GPU 通信。

2025-03-26 16:29:09 1917

原创 nccl中的proxy是指什么 (来自deepseek)

将通信任务(如数据搬运、同步)交给专门的代理线程(Proxy Thread)处理,允许计算线程(如 CUDA Kernel)继续执行。,以优化多 GPU 或多节点间的集体通信(如 AllReduce、Broadcast)的性能和资源利用率。在复杂的多 GPU 通信场景(如多线程调用 NCCL)中,Proxy 统一管理通信顺序,防止资源竞争。在非全连接的 GPU 拓扑(如多机多卡)中,Proxy 协调数据的中转路由。:统一调度跨 GPU 或跨节点的通信请求,减少竞争和死锁风险。

2025-03-26 16:11:46 729

原创 NCCL中QP和Channel是什么关系(来自deepseek)

是 RDMA 的底层队列,负责“干活”(执行数据传输)。

2025-03-24 18:01:32 1392

IEEE1588_v1_v2.pdf

PTP精确时钟同步协议的英文表述为:Precision Time Protocol;为这三个英文单词的缩写。 精确时钟同步协议PTP(Precision Time Protocol)是一种对标准以太网终端设备进行时间和频率同步的协议,也称为IEEE 1588,简称为1588。1588分为1588v1和1588v2两个版本,1588v1只能达到亚毫秒级的时间同步精度,而1588v2可以达到亚微秒级同步精度。

2021-01-27

KB4474419和KB4490628系统补丁

KB4474419和KB4490628系统补丁,win7 64位的系统需要安装。在vs2017安装不上的时候可以用

2020-12-04

exiv2 debug和release库 (版本号 0.23)

exiv2官方下载的release库,在debug时竟然运行有问题,只能自已来编译了,编了个0.23版本的64位的库(包括debug和release),编译是用vs2017编译的。

2018-12-25

apple emoji 图标(1449个)

2017/10/10号下载的emoji图标,之前网上找到的都已经很老的版本

2017-10-10

alac解码程序

alac解码程序,有需要的可以参考一下,alac解码程序,有需要的可以参考一下

2013-01-16

ios中利用libcurl上传文件到ftp服务器

ios中利用libcurl上传文件到ftp服务器

2017-07-02

ios中利用ios sdk实现上传文件到ftp服务器

ios中利用ios sdk实现上传文件到ftp服务器

2017-07-02

rtsp server部分的开源代码

rtsp server部分的开源代码

2013-01-16

libcurl下载库

libcurl下载库,支持http,ftp,rtsp......等各种网络下载协议

2013-03-05

android 硬编码示例

android 硬编码示例,有需要的同学们可以下下来参照一下!

2018-12-13

libexif 0.6.21 的windows的运行库

libexif 0.6.21在mingw下编译出来的库,有需要的可以下下来试试 #include 链接libexif.dll.a

2019-02-23

WebKit-r55270.tar.bz2

WebKit-r55270.tar.bz2,前几天刚下的webkit的源码,在针对mips的平台编译已过通过,大家可以试试。

2010-05-16

wavwriter.rar

pcm数据添加wav头信息保存为wav文件,有需要的可以参考一下。pcm数据添加wav头信息保存为wav文件,有需要的可以参考一下。

2020-09-03

dvbsnoop源码

开源软件,有需要的可以试试,用于mpts的我解析

2010-07-31

textXml.rar

qt环境下对xml的创建,增加,修改,删除的测试例子。亲测可用!

2019-07-21

OpenGlPlayer.rar

OpenGL + MediaPlayer的播放器的例子,有需要的可以下下来看看, 直接上代码,方便!

2020-03-09

Qt 4中文版

Qt 4中文版编程指南,如有需要用qt4编程的可以参考一下

2013-03-05

ffmpeg for android

ffmpeg for android ,有需要的可以试试

2012-09-07

dvbstreamer 1.2 版本源码

dvbstreamer-1.2.tar.gz 从网上下的,上传一份备份

2010-07-31

testGif.tar.bz2

qt 在QLabel中显示 gif,有需要的同学可以直接编译看看。

2019-07-11

nccl kernel中的reduce调用过程的简单模拟,有助于理解reduce的处理流程

nccl kernel中的reduce调用过程的简单模拟,有助于理解reduce的处理流程。

2025-07-11

draft-alvestrand-rmcat-remb-03.txt

google gcc 标准

2021-11-22

draft-alvestrand-rmcat-congestion-02.txt

webrtc google gcc

2021-11-22

PTP的windows的测试代码,包含服务端和客户端

PTP的windows的测试代码,包含服务端和客户端(windows虚拟机的测试情况为10毫秒的偏差)

2024-07-17

获取windows的版本及显卡型号的系统调用

获取windows的版本及显卡型号的系统调用,及操作系统的位数

2023-03-03

调用ffmpeg的swr-convert对pcm进行重采样的例子

调用ffmpeg的swr_convert对pcm进行重采样的例子

2023-02-26

windows下录制扬声器或麦克风的例子

windows下录制扬声器或麦克风的例子,直接保存为wav文件进行测试。

2023-02-23

qt版的mdns的使用例子,设备发现的速度比较快

qt版的mdns的使用例子,设备发现的速度比较快

2023-02-19

Mac下的图标生成圆角的工具

Mac下的图标生成圆角的工具

2022-11-18

android下选择图片文件夹并显示

android下选择图片文件夹并显示对应文件夹下的图片文件,有需要的可以参考一下。 android下选择图片文件夹并显示对应文件夹下的图片文件,有需要的可以参考一下。 android下选择图片文件夹并显示对应文件夹下的图片文件,有需要的可以参考一下。 android下选择图片文件夹并显示对应文件夹下的图片文件,有需要的可以参考一下。 android下选择图片文件夹并显示对应文件夹下的图片文件,有需要的可以参考一下。 android下选择图片文件夹并显示对应文件夹下的图片文件,有需要的可以参考一下。 android下选择图片文件夹并显示对应文件夹下的图片文件,有需要的可以参考一下。 android下选择图片文件夹并显示对应文件夹下的图片文件,有需要的可以参考一下。 android下选择图片文件夹并显示对应文件夹下的图片文件,有需要的可以参考一下。 android下选择图片文件夹并显示对应文件夹下的图片文件,有需要的可以参考一下。 android下选择图片文件夹并显示对应文件夹下的图片文件,有需要的可以参考一下。 android下选择图片文件夹并显示对应文件夹下的图片文件,有需要的可以参考

2022-08-14

libplist for android

源码来自于:git clone http://git.libimobiledevice.org/libplist.git 添加了android的编译脚本

2022-05-27

windows里从webrtc的src下提取h文件的处理

在src目录下,把不是.h的文件统统删掉,剩下的就是我们想要的头文件了

2022-03-30

文件收发socket,一个接收,一个发送

文件收发socket,一个接收,一个发送

2022-03-04

windows截屏函数的调用例子

来自于 https://www.jianshu.com/p/e775b0f45376

2022-01-21

LocalMonitor.tar.bz2

C语言版的监控程序,由一个主进程监控多个子进程,当遇到崩溃或其它原因引起的退出时,把对应的子进程启动起来。

2021-12-18

owt-server-master.zip

open-webrtc-toolkit /owt-server

2021-11-19

ice-rfc5245.webarchive

Interactive Connectivity Establishment (ICE):A Protocol for Network Address Translator (NAT) Traversal for Offer/Answer Protocols

2021-11-18

draft-ietf-rmcat-gcc-02.webarchive

webrtc中gcc(网络拥塞控制算法)

2021-11-04

Mediacodec-master.zip

android下调用mediacodec播放h264的测试demo,部分参数大家可以修改一下再用

2021-11-05

vdm980702.tar.bz2

fec最原始的源码

2021-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除