代码片段
文章平均质量分 62
Hi20240217
每天进步一点点
展开
-
采用macvlan绕过某些软件需要MAC授权的问题
采用macvlan绕过某些软件需要MAC授权的问题某些软件需要跟MAC绑定,新的设备需要单独授权,特别费事.因此,采用macvlan方式,为容器指定已经授权的MAC,绕过授权原创 2024-11-05 15:46:07 · 1103 阅读 · 0 评论 -
Gitlab自动化相关脚本
本文演示了Gitlab如何自动上传SSH Key、如何clone代码免提示以及自动下载Gitlab上的文件原创 2024-11-05 13:49:27 · 498 阅读 · 0 评论 -
openvino python推理demo
openvino python推理demo原创 2024-11-04 13:54:00 · 200 阅读 · 0 评论 -
使用onnxruntime c++ API实现yolov5m视频检测
本文演示了yolov5m从模型导出到onnxruntime推理的过程原创 2024-11-04 13:49:14 · 397 阅读 · 0 评论 -
将python程序制作成服务,用supervisor管理
将python程序制作成服务,用supervisor管理原创 2024-10-25 17:58:35 · 193 阅读 · 0 评论 -
编译grpc v1.62.0,制作deb安装包
编译grpc v1.62.0,制作deb安装包原创 2024-10-25 17:48:15 · 95 阅读 · 0 评论 -
TensorRT C++ ONNX 推理
CUDA 12.4.1 + TensorRT10.1.0 C++ 推理1.onnxruntime 推理生成输入输出2.TensorRT推理,比对MSE原创 2024-10-25 17:37:14 · 333 阅读 · 0 评论 -
unified-runtime编译与验证
unified-runtime编译与验证原创 2024-10-19 21:13:42 · 284 阅读 · 0 评论 -
sycl编译器编译及测试
sycl编译器编译及测试。原创 2024-10-19 20:49:37 · 180 阅读 · 0 评论 -
TensorRT推理端到端
本文演示TensorRT推理端到端。原创 2024-10-19 20:42:42 · 446 阅读 · 0 评论 -
oneAPI学习-使用oneAPI 实现矩阵乘法并分析性能瓶颈
oneAPI学习-使用oneAPI 实现矩阵乘法并分析性能瓶颈原创 2024-10-13 14:06:46 · 769 阅读 · 0 评论 -
rocm PeerAccess 测试
rocm PeerAccess 测试原创 2024-10-13 08:44:47 · 263 阅读 · 0 评论 -
探索NVIDIA GPU PeerAccess的访问范围如何突破PCIE Bar空间大小
探索NVIDIA GPU PeerAccess的访问范围如何突破PCIE Bar空间大小原创 2024-10-13 08:40:32 · 1311 阅读 · 0 评论 -
CUDA Graphs学习与实验
CUDA图(CUDA Graphs)为CUDA引入了一种全新的工作提交模型。它允许将一系列操作(如内核启动)以图的形式表示,并通过依赖关系将这些操作连接起来。这种图的定义过程与其执行过程是分开的,这意味着我们可以提前定义好一个图,然后多次重复执行它原创 2024-10-11 10:03:58 · 1348 阅读 · 0 评论 -
CUDA Context学习及实验
CUDA上下文(CUDA Context)是一个核心概念,负责在GPU设备上管理和维护CUDA程序执行所需的所有状态和资源。原创 2024-10-10 13:53:46 · 1059 阅读 · 0 评论 -
CUDA Green Contexts测试
CUDA Green Contexts 测试原创 2024-10-09 20:00:31 · 931 阅读 · 0 评论 -
测试NCU中srcnode_gpc、srcunit_l1、srcunit_tex之间的关系
测试NCU中srcnode_gpc、srcunit_l1、srcunit_tex之间的关系。原创 2024-10-09 15:30:31 · 506 阅读 · 0 评论 -
NVIDIA Nsight Compute Replay测试
本文测试NVIDIA Nsight Compute 收集同一个Kernel 不同metrics,需要执行replay的次数原创 2024-10-09 10:08:42 · 353 阅读 · 0 评论 -
CUDA Dynamic Parallelism测试
CUDA 动态并行(CUDA Dynamic Parallelism)是 NVIDIA 在其 CUDA 编程模型中引入的一个强大特性。它允许 GPU 上运行的内核(kernel)直接在设备端启动新的内核,而无需返回主机(CPU)进行控制。这一特性使得我们可以在 GPU 上实现更复杂、更动态的算法,提高程序的并行度和执行效率。原创 2024-09-30 18:36:12 · 669 阅读 · 0 评论 -
CUDA Cooperative Groups 例子
下文包含的测例:* 测试一:借助grid_group同步,将tid=0的数据复制给其它线程* 测试二:借助thread_block_tile同步,将每个thread block中的数据倒排* 测试三:tile内和* 测试四:tile内广播原创 2024-09-29 15:54:44 · 544 阅读 · 0 评论 -
CUDA cooperative_groups grid_group测试
CUDA Cooperative Groups是CUDA编程模型中引入的一组高级特性,提供了更灵活的线程组织和同步机制通过Cooperative Groups,开发者可以在不同层次上组织线程,并执行更高效的并行操作grid_group.sync 可用于整个grid同步。原创 2024-09-29 14:18:05 · 908 阅读 · 0 评论 -
CUDA C++ Best Practices Guide 概要
CUDA C++ Best Practices Guide 概要原创 2024-09-27 16:12:07 · 1124 阅读 · 0 评论 -
CUDA抢占模式测试
CUDA抢占模式测试* 默认为抢占模式,后台运行一个Kernel,将利用率打满* 运行一个Kernel,Profing smsp__warps_restored,发现有值* nvidia-smi -c 3设置为EXCLUSIVE模式,创建多个上下文时:CUDA-capable device(s) is/are busy or unavailable!原创 2024-09-26 15:13:52 · 307 阅读 · 0 评论 -
Tesla T4 P2P测试
Tesla T4 P2P测试通过物理ID找到逻辑IDNCU P2P相关的MetricsPCIE、DRAM相关的Metrics原创 2024-09-25 18:12:16 · 553 阅读 · 0 评论 -
Clang插件演示-直接调用AI模型定义的变量完成模型推理
1.用户在c++代码里定义一个AI模型的描述(文件路径,数据类型,输入、输出等)2.编译器识别该描述,编译模型为二进制,并且嵌入到elf文件中,对外暴露一个API3.用户直接调用该API,传入模型输入输出参数,完成模型推理原创 2024-09-20 19:12:25 · 1301 阅读 · 0 评论 -
Rocprofiler测试
Rocprofiler测试。原创 2024-09-20 19:10:27 · 771 阅读 · 0 评论 -
尝试用float32运算器实现二个大数的加法
本文尝试用float32运算器实现二个大数的加法。先试图训练一个conv的kernel来实现,不能收敛;最后用float32的向量操作来实现。原创 2024-09-19 17:44:10 · 204 阅读 · 0 评论 -
关于区块链的个人理解(不一定对)
关于区块链的个人理解(不一定对)原创 2024-09-14 19:02:26 · 259 阅读 · 0 评论 -
snarkVM Synthesis Puzzle prove 调试过程
本文记录了snarkVM Synthesis Puzzle prove 调试过程(zkSNARKs零知识证明)原创 2024-09-13 21:38:28 · 607 阅读 · 0 评论 -
分析zkwork_aleo_gpu_worker哪些部分用了GPU加速
分析zkwork_aleo_gpu_worker哪些部分用了GPU加速,涉及* cuda-gdb、gdb的使用* strip的程序gdb如何查看函数的参数* 如何dump一个进程的内存* gdb dump内存原创 2024-09-12 20:43:13 · 1287 阅读 · 0 评论 -
CUDA int128相乘是怎么实现的
CUDA int128相乘是怎么实现的。原创 2024-09-12 18:55:03 · 397 阅读 · 0 评论 -
GPU相关的一些截图
GPU相关的一些截图原创 2024-09-10 20:59:32 · 394 阅读 · 0 评论 -
CUDA L2Cache Profing
【代码】CUDA L2Cache Profing。原创 2024-09-10 20:30:46 · 469 阅读 · 0 评论 -
cudaMallocManaged内存测试
cudaMallocManaged内存测试。原创 2024-09-10 08:07:39 · 272 阅读 · 0 评论 -
smsp__inst_executed_pipe_fp64为什么对不上
smsp__inst_executed_pipe_fp64 为什么对不上。原创 2024-09-09 19:28:05 · 583 阅读 · 0 评论 -
RTX3060 FP64测试与猜想
RTX3060 FP64测试与猜想。原创 2024-09-09 18:53:33 · 1063 阅读 · 0 评论 -
cuda block之间的同步测试
本文测试了cuda block之间的同步行为。原创 2024-09-09 11:47:19 · 701 阅读 · 0 评论 -
测试CUDA __threadfence的行为
测试CUDA __threadfence的行为。原创 2024-09-06 15:36:34 · 390 阅读 · 0 评论 -
NVIDIA GPU atom.global指令Profing
本文对NVIDIA GPU atom.global指令Profing,并小结。原创 2024-09-04 17:50:27 · 460 阅读 · 0 评论 -
NV GPU FMA指令测试
本文测试了NV GPU FMA指令的行为。原创 2024-08-27 18:42:52 · 1286 阅读 · 0 评论
分享