- 博客(148)
- 资源 (3)
- 收藏
- 关注
原创 框架篇第2节:算子本质——PyTorch中的算子如何调用cuDNN&cuBLAS
本文深入剖析了PyTorch算子从Python调用到底层GPU指令的完整执行路径。主要内容包括: PyTorch算子调用链:从Python层到ATen库,经设备类型分发后最终调用cuBLAS/cuDNN或手写kernel 常见算子的底层映射关系:矩阵运算对应cuBLAS函数,卷积操作对应cuDNN函数 查看底层实现的方法:使用TORCH_LOGS环境变量、nsys性能分析工具以及源码追踪 算子融合优化:PyTorch通过JIT编译和torch.compile实现自动融合,减少内存访问和kernel启动开销
2026-04-24 18:00:00
99
1
原创 面试真题集(八):多GPU编程与通信
本文精选20道多GPU编程面试题,涵盖多GPU编程、NCCL通信、分布式训练等核心内容。选择题解析多GPU编程要点,如NCCL通信器的使用、Ring AllReduce算法特性等。简答题深入探讨P2P通信优势、梯度同步原理、通信优化技巧等关键技术。编程题提供多GPU数据拷贝和AllReduce的代码实现示例。全文聚焦工业级分布式训练的核心难点,帮助开发者掌握多卡编程的关键技术与优化方法。
2026-04-23 18:00:00
370
原创 面试真题集(七):CUDA库使用
本套真题集旨在检验你对CUDA生态库的掌握程度,从基础API到高级调优,从单库使用到多库协同。愿你通过这20道题,将理论转化为实战能力。
2026-04-22 18:00:00
22
原创 面试真题集(六):并行算法实现
本文精选20道CUDA并行计算面试题,涵盖扫描、排序、稀疏矩阵运算等核心算法及cuBLAS、cuFFT等生态库应用。选择题解析了并行扫描的工作复杂度(O(n log n))、基数排序对浮点数的适用性、SpMV优化策略等关键概念。简答题深入探讨了Hillis-Steele算法、共享内存优化基数排序、负载均衡优化SpMV等技术细节,并分析了Ring AllReduce的通信优化原理。编程题则提供了并行扫描kernel的实现示例,展示了共享内存和warp shuffle的优化技巧。全文系统检验了从基础kernel
2026-04-21 18:00:00
105
1
原创 OpenClaw进阶实战(二十):工作流5:企业内部门户+邮件日历+任务管理
本文介绍了基于OpenClaw构建的企业内部智能工作流系统,实现邮件智能处理、会议纪要自动生成、任务自动分配和周报自动生成等功能。系统通过打通会前准备、会中记录、会后纪要、任务拆解、执行跟进等全链路,解决企业信息孤岛问题。核心组件包括邮箱集成、日历集成、AI纪要生成、待办提取等模块,采用API集成方式实现跨平台协作。文中详细展示了邮件处理技能的代码实现,包含邮件分类、日历事件提取和任务创建等功能,通过智能分类将邮件自动转为日程或任务,大幅提升办公效率。
2026-04-21 12:00:00
364
1
原创 深入篇总结:从单kernel到系统级并行——你已掌握并行算法的核心与CUDA生态
本文总结了CUDA深入篇的学习历程,从手写并行算法到掌握CUDA生态库的思维转变。重点包括:1)理解扫描、排序、稀疏矩阵等并行算法的设计哲学;2)学会运用cuBLAS、cuDNN等优化库替代手写实现;3)从微观优化转向系统设计思维。通过11节内容,学习者完成了从"单kernel优化专家"到"并行算法与系统集成工程师"的蜕变,掌握了组合使用CUDA生态库构建复杂应用的能力,为后续深度学习框架开发打下坚实基础。
2026-04-20 18:00:00
184
原创 OpenClaw进阶实战(十九):工作流4:抖音矩阵号视频脚本生成 + 自动发布
抖音矩阵号自动化运营解决方案 本文介绍了一套完整的抖音矩阵号自动化工作流系统,通过AI技术实现从内容生产到分发的全链路优化。核心功能包括: 智能脚本生成:基于热点话题自动生成爆款短视频脚本,提供多种开场、正文和结尾模板组合 自动化生产:支持批量视频混剪与去重处理,确保矩阵号内容差异化 智能分发:通过抖音开放API实现多账号批量发布与调度 数据闭环:自动回收各账号播放量、点赞等核心指标 系统采用模块化设计,包含选题引擎、脚本生成器、混剪工具、发布调度器和数据看板等组件,支持日均100+视频的自动化生产能力。实
2026-04-20 12:00:00
386
原创 深入篇第11节:NCCL(二)——深入分析Ring AllReduce算法与带宽最优性
本文深入解析了Ring AllReduce算法在分布式训练中的核心原理与应用。该算法通过逻辑环组织GPU,采用Reduce-Scatter和AllGather两阶段实现梯度同步,总通信量约为2倍数据量,实现带宽最优。相比Tree AllReduce,Ring算法带宽利用率更高但延迟较大。文章详细分析了带宽最优性、PyTorch DDP中的实现方式,并提供了性能优化建议和常见面试问题解答。理解Ring AllReduce有助于优化分布式训练性能,诊断通信瓶颈,并为自定义框架设计提供基础。
2026-04-19 18:00:00
111
原创 OpenClaw进阶实战(十八):工作流3:小红书种草文案生成 + 私信导流
以下是摘要: 本文介绍了如何利用OpenClaw构建小红书自动化营销工作流,包含种草文案生成和私信自动回复两大核心功能。通过商品数据驱动,系统能自动生成带有emoji表情和热门标签的种草文案(如"✨无线鼠标静音设计太香了"),并支持多种标题模板随机选择。私信回复模块采用关键词匹配机制,针对价格、购买方式等常见问题自动回复,并可嵌入商品链接和微信号实现导流。工作流覆盖从内容生成、发布到用户互动的全流程,包含CSV数据管理、模板变量替换等实用功能,适用于电商运营场景。所有代码均提供完整实现,
2026-04-19 11:03:21
50
1
原创 框架篇第1节:PyTorch的GPU加速原理——Tensor对象与CUDA流
PyTorch GPU底层机制解析 本文深入剖析了PyTorch与CUDA的交互原理,从Tensor内存布局到GPU加速实现。主要内容包括: Tensor核心机制:解析NCHW/NHWC格式、零拷贝视图操作及存储管理 GPU设备管理:详述显存分配、数据传输策略(同步/异步)及内存池优化 CUDA流并发:演示多流并行计算、数据传输与计算重叠的实现方法 性能优化陷阱:指出常见同步问题及解决方案,如避免隐式同步、多流最佳实践 实用调试技巧:包含事件计时、流同步和异步错误检测方法 文末附2024-2026年面试真题
2026-04-19 10:59:53
25
原创 深入篇第10节:NCCL(一)——多GPU通信原语(AllReduce, Broadcast)与集群通信
本文深入解析了NCCL在分布式深度学习中的核心作用。NCCL作为NVIDIA优化的通信库,提供了高效的集体通信原语,特别是AllReduce在数据并行训练中实现梯度同步的关键功能。文章详细介绍了NCCL的基本概念、安装使用、多GPU通信实现,并探讨了Ring和Tree等算法在不同拓扑结构下的性能优化。通过PyTorch DDP集成示例展示了实际应用,同时提供了环境变量调优和常见问题解决方法。最后,文章通过面试真题形式总结了NCCL的核心知识点,包括通信模式选择、性能优化策略等,为开发者构建高性能分布式训练系
2026-04-17 18:00:00
248
原创 OpenClaw进阶实战(十七):工作流2:公众号自动发文 + 多平台同步
steps:command: "生成随机文章"command: "发布 wechat {{ article_path }}"command: "发布 zhihu {{ article_path }}"params:message: "文章 {{ article_path }} 已发布\n微信: {{ wechat_result }}\n知乎: {{ zhihu_result }}"基于草稿的自动文章生成微信公众号、知乎等多平台发布技能统一发布工作流,一键分发。
2026-04-17 12:00:00
240
1
原创 深入篇第9节:Thrust——CUDA的C++标准模板库,快速开发
Thrust是CUDA Toolkit的一部分,是一个C++模板库,为GPU编程提供高层抽象。它的设计灵感来源于C++ STL,包含了向量容器、迭代器、算法等。核心特点与STL风格一致:如果你熟悉std::sort,几乎可以零成本上手Thrust自动选择后端:可以在GPU和CPU之间切换(通过编译选项)性能优异:底层调用优化过的CUDA kernel,通常比手写简单kernel更快可扩展:可以自定义仿函数,与Thrust算法无缝集成参考答案通过定义仿函数(functor),重载。
2026-04-16 18:00:00
179
原创 OpenClaw进阶实战(十六):工作流1:淘宝店铺自动化运营——比价+调价+客服闭环
本文介绍了如何整合电商模块中的价格监控、智能调价和客服自动化功能,构建淘宝店铺自动化运营工作流。通过Redis实现技能间数据共享,定义YAML工作流实现"监控→决策→执行→反馈"闭环。扩展了price_adjuster和faq_bot技能命令,支持批量处理和价格同步功能,最终形成定时执行的完整运营流程,包含异常处理与人工介入节点。
2026-04-16 12:00:00
158
原创 深入篇第8节:cuRAND——在GPU上生成海量随机数
文章摘要: cuRAND是NVIDIA提供的GPU随机数生成库,支持多种分布(均匀、正态、泊松等)和生成器(XORWOW、MRG32k3a等)。它能在设备端直接生成随机数,避免CPU-GPU传输瓶颈,特别适合大规模并行计算。核心用法包括:创建生成器、设置种子、调用生成函数。性能测试显示,在A100上生成1亿随机数仅需35ms,比CPU快34倍。在深度学习中,cuRAND可用于权重初始化、数据增强和强化学习动作采样。优化建议包括:根据场景选择生成器(XORWOW速度最快,Philox质量最高)、使用拟随机数(
2026-04-15 18:00:00
116
1
原创 OpenClaw进阶实战(十五):库存监控与自动补货技能
本文介绍了电商库存自动化监控与补货系统的设计与实现,主要内容包括: 系统功能 实现多平台库存同步(淘宝/京东/拼多多) 支持安全库存策略配置 自动生成采购订单 完整的补货工作流(监控→预警→采购→入库更新) 技术实现 采用OpenClaw技能架构开发 包含库存抓取、安全库存配置、采购单生成等核心组件 提供模拟模式支持离线测试 关键特点 实时监控各平台库存水平 低于安全库存时自动预警 支持自定义补货策略 简化多平台库存管理 该系统可有效解决电商运营中的库存管理痛点,避免库存积压和断货问题,提升运营效率。
2026-04-15 12:00:00
118
原创 深入篇第7节:cuFFT——快速傅里叶变换在信号处理中的应用
摘要: cuFFT是NVIDIA提供的GPU加速FFT库,通过并行计算显著提升傅里叶变换效率。文章介绍了cuFFT的核心功能,包括一维/二维变换、复数/实数数据类型支持及基本使用流程(创建计划、执行变换、释放资源)。通过实例展示了一维复数FFT(1M点加速30倍)和二维图像低通滤波(1024×1024图像加速40倍)的性能优势,对比CPU(FFTW)和手写GPU实现突显其高效性。此外,还探讨了批量处理、异步执行等高级特性,并附面试真题解析。cuFFT为信号处理、图像分析等领域提供毫秒级大规模计算能力,是替代
2026-04-14 18:00:00
115
原创 OpenClaw进阶实战(十四):电商客服自动化——智能回复 + 差评预警
摘要:本文介绍如何开发电商AI客服系统,实现FAQ智能问答、自动回复和差评监控三大功能。通过ChromaDB构建向量化知识库,结合句子嵌入模型实现语义匹配;利用淘宝/京东API接口接收用户咨询并自动回复;部署差评监控模块,使用情感分析识别负面评价并触发预警。技术方案包含知识库管理、意图识别、API对接和实时监控工作流,有效降低人工客服压力,提升响应速度与用户满意度。代码示例涵盖从数据准备到生产部署的全流程实现。
2026-04-14 12:00:00
78
原创 深入篇第6节:cuDNN——深度学习的核心加速库,卷积算法的选择与性能影响
cuDNN是NVIDIA专为深度学习优化的GPU加速库,提供卷积、池化、激活函数等核心算子的高效实现。它针对不同卷积配置提供多种算法(im2col、Winograd、FFT等),并自动选择最优算法。cuDNN支持Tensor Core加速,通过混合精度可获得显著性能提升。在PyTorch等框架中,设置torch.backends.cudnn.benchmark=True可自动寻找最快算法。理解cuDNN的算法选择机制有助于优化深度学习模型的训练和推理性能。
2026-04-13 18:00:00
311
原创 OpenClaw进阶实战(十三):电商比价工作流(二)——智能比价与动态调价
本文摘要(149字): 《OpenClaw进阶实战》第13篇讲解智能比价与动态调价系统实现。基于前篇价格监控数据,系统通过决策引擎执行四种定价策略:跟随竞品均价、压制性低价、利润优先和智能区间调价。采用YAML配置策略参数,Python实现核心逻辑,包含价格计算、调价阈值判断及淘宝/京东API集成(含模拟模式)。系统自动对比当前价与建议价,当变动超阈值时触发调价,确保价格竞争力同时避免亏损。完整工作流覆盖监控→决策→执行→记录环节,适用于多电商平台自动化价格管理。
2026-04-13 12:00:00
186
原创 OpenClaw对话一长就变笨?解决上下文窗口爆满
摘要: 本文针对大模型对话中常见的上下文窗口溢出问题(表现为重复回答或报错),提供了实用解决方案。首先介绍了通过/context命令诊断token使用情况的方法,当使用率超过80%时需要警惕。随后给出两种急救方案:推荐使用/compact命令自动压缩对话历史,或手动新建会话并摘要关键信息。长期解决方案包括配置自动压缩阈值(如本地模型设为0.6,GPT-4设为0.85)和养成减少token消耗的习惯(避免大段粘贴、定期新建会话等)。对于极端小窗口模型,建议升级或采用外部记忆方案。文末提供5步检查清单,帮助用户
2026-04-13 11:41:38
845
1
原创 深入篇第5节:cuBLAS(二)——利用cuBLAS实现神经网络全连接层
本文介绍了如何使用cuBLAS高效实现深度学习中的全连接层。全连接层核心是矩阵乘法运算Y=X*W^T+b,cuBLAS的GEMM接口能高效完成这一计算。文章详细讲解了使用cublasGemmEx实现矩阵乘法的步骤,包括内存分配、数据准备和参数设置,并提供了添加偏置的优化方法。性能测试显示,手写cuBLAS实现与PyTorch原生性能相当,FP16混合精度下可进一步提升速度。文章还讨论了融合偏置与激活函数的优化技巧,并提供了相关面试问题的参考答案。通过cuBLAS底层调用,开发者可以达到框架级别的计算性能。
2026-04-12 18:00:00
24
1
原创 OpenClaw进阶实战(十二):电商比价工作流(一)——数据采集与竞品监控
本文介绍了基于OpenClaw的电商比价系统实现方案。该系统可自动化监控淘宝、京东、拼多多等平台的竞品价格波动,包含以下核心功能: 多平台价格采集:通过各平台官方API(淘宝客、京东联盟、多多进宝)获取商品价格,并提供模拟数据模式便于测试 数据存储与分析:使用SQLite存储历史价格数据,支持查询最近价格和价格变化趋势 模块化设计:采用技能化架构,分离了平台适配层(淘宝/京东/拼多多)、数据存储层和核心业务逻辑 扩展性:预留了价格波动告警接口(钉钉通知),为后续动态调价提供数据支撑 系统特点: 支持真实AP
2026-04-12 10:42:50
91
原创 深入篇第4节:cuBLAS(一)——矩阵乘法的调用与性能对比(vs 手写)
cuBLAS是NVIDIA CUDA Toolkit的一部分,提供了与CPU BLAS(如OpenBLAS、Intel MKL)类似的接口,但运行在GPU上。Level 1:向量-向量操作(如axpy, dot)Level 2:矩阵-向量操作(如gemv)Level 3:矩阵-矩阵操作(如gemm)——深度学习的核心op(X)可以是X(不转置)或X^T(转置)α和β是标量对于标准矩阵乘法C = A * B,设置,且不转置。cuBLAS是NVIDIA官方线性代数库,性能远超手写GEMM。
2026-04-11 18:00:00
33
原创 OpenClaw进阶实战(十一):热门选品与市场分析工作流——AI驱动电商选品
本文摘要: 《OpenClaw进阶实战》第11篇介绍电商AI选品与竞品分析工作流构建。针对卖家核心痛点(选品、定价、竞争分析),提出基于OpenClaw的自动化解决方案: 通过hot_product_finder技能抓取淘宝/拼多多热销商品数据,支持关键词筛选与榜单生成 利用competitor_analyzer技能分析竞品价格分布、销量及评论情感(SnowNLP实现) 技术实现包含模拟数据开关、淘宝客API集成、结构化报告生成 完整代码示例涵盖技能注册、核心逻辑及钉钉通知集成 最终输出可视化分析报告,提升
2026-04-11 12:00:00
171
原创 深入篇第3节:稀疏矩阵运算——CSR格式与SpMV优化
稀疏矩阵在GPU上的优化面临存储格式和计算模式的双重挑战。本文聚焦CSR格式的稀疏矩阵向量乘(SpMV)优化,从朴素实现(5 GFLOPS)逐步提升至25 GFLOPS。关键优化包括:行分组平衡负载、向量化加载提升带宽、每个线程处理多行增加计算密度。对比NVIDIA cuSPARSE库的45 GFLOPS,展示了优化空间。文章还简要介绍了COO和ELL等其他稀疏格式的特点。通过系统性的优化方法,可显著提升稀疏计算在GPU上的性能表现。
2026-04-10 18:00:00
132
1
原创 OpenClaw进阶实战(十):私有技能市场搭建——企业级ClawHub
本文介绍如何搭建企业级OpenClaw私有技能市场,解决技能共享和管理问题。文章提出两种方案:轻量级Git仓库方案和完整API服务方案。Git方案通过目录结构和索引文件管理技能,适合小团队快速部署;API方案采用FastAPI实现技能上传、搜索和安装功能,支持版本管理和权限控制。两种方案都包含客户端实现,支持技能搜索、安装和更新操作。私有技能市场可提升团队协作效率,避免重复开发,是OpenClaw规模化应用的关键基础设施。
2026-04-10 12:00:00
212
原创 Gemma 4 + OpenClaw:打造钻石级本地AI智能体
摘要: 谷歌开源模型Gemma 4系列与开源智能体框架OpenClaw的结合,开启了本地AI的新范式。Gemma 4包含四款模型(2B至31B参数),支持256K超长上下文、MoE架构和多模态输入,性能超越同级别模型。OpenClaw作为执行框架,赋予Gemma 4实际动手能力,如文件操作、API调用等。两者的结合实现了全本地化部署,兼顾隐私与高效,支持从代码审查到智能助手的多样化场景。部署仅需五步:安装Ollama、下载模型、启动服务、配置OpenClaw即可运行。这一组合以更低的硬件需求,提供了接近云端
2026-04-10 09:03:41
770
原创 深入篇第2节:高效排序——在GPU上实现基数排序与合并排序
本文介绍了两种适合GPU实现的排序算法:基数排序和合并排序。传统排序算法如快速排序和堆排序由于递归和随机访问特性,难以在GPU上高效并行化。基数排序通过按位分桶实现数据并行,每趟独立处理4位数据,利用前缀和和原子操作实现高效重排。合并排序则采用分治策略,先对小段数据排序,再逐层并行合并。实验显示,基数排序在A100上处理1000万个32位整数比CPU快排快约18倍。这两种算法通过数据并行和合并内存访问,充分发挥了GPU的计算优势。
2026-04-09 18:00:00
108
原创 OpenClaw进阶实战(九):技能热加载与版本管理——零停机迭代
摘要: 本文介绍了OpenClaw技能热加载与版本管理的实现方案。通过Python模块动态重载、文件监控和状态保持机制,实现零停机更新技能。核心组件包括: 技能注册表:支持动态加载/卸载技能,调用钩子函数保存状态 文件监控器:基于watchdog检测技能目录变化,触发自动重载 版本管理:结合Git标签与元数据实现版本控制 方案解决了传统重启导致的服务中断问题,支持生产环境持续交付,已应用于电商全栈场景,实测热加载耗时<200ms。完整代码见系列第六篇基础配置。
2026-04-09 12:00:00
25
原创 国产最强开源模型 GLM-5.1 来了!Ollama 一键部署,开启 8 小时自主 AI 工作
GLM-5.1不是一次架构革新,而是一次后训练工程的深度胜利它在GLM-5的基石上,通过多任务SFT、推理强化学习、智能体强化学习等渐进对齐技术[reference:25],在不到两个月的时间里,将编程能力提升了近三成,让长程自主任务从“概念”变成了“现实”。MIT协议 + Ollama一键部署 + 国产芯片全栈适配的组合,意味着开发者不需要昂贵的GPU集群,在自己的电脑上就能拥有一个能“工作8小时”的AI工程师。现在,去终端里敲下,亲自感受一下国产最强开源模型的生产力吧。
2026-04-09 09:33:15
1396
原创 面试真题集(四):线程调度、并发执行与性能分析
本文摘要: CUDA进阶专题涵盖Warp调度、CUDA流、动态并行等核心内容。选择题解析了Warp分化(B正确)、CUDA流(D错误)、动态并行(A正确)等概念。简答题详细解答了Warp分化的检测优化方法、多流实现计算传输重叠、CUDA Graph适用场景等技术要点。编程题提供了双流流水线实现和CUDA Graph捕获执行的代码示例,展示并发优化实践。全文通过20道真题系统讲解CUDA并发编程的关键技术与性能优化方法。
2026-04-08 18:00:00
28
原创 深入篇第1节:并行扫描(Scan&Prefix Sum)——从串行到并行的经典演化
包含扫描(Inclusive Scan):输出第i个元素包含第i个输入out[i] = sum_{j=0}^{i} in[j]排除扫描(Exclusive Scan):输出第i个元素不包含第i个输入(通常将out[0]设为0)out[i] = sum_{j=0}^{i-1} in[j]参考答案并行扫描是将前缀和操作并行化的算法。串行复杂度O(n),并行扫描工作复杂度O(n log n)但时间O(log n)(对于足够多的处理器)。实际应用中,常用分块方法平衡工作量和通信。并行扫描。
2026-04-08 18:00:00
33
原创 面试真题集(五):高级特性与系统优化
本文聚焦CUDA高级特性与优化技巧,涵盖原子操作、纹理内存、协作组等核心概念。通过20道真题解析,深入探讨无锁栈实现、寄存器压力优化、Grid级同步等关键技术点,并对比cudaMalloc与cudaMallocManaged的适用场景。文章强调原子操作对性能的影响,纹理内存的空间局部性优势,以及协作组在细粒度同步中的作用,为冲击大厂高薪岗位提供系统级优化思路。
2026-04-08 11:30:00
130
原创 OpenClaw进阶实战(八):状态机模式——管理长时间运行的任务(如审批流程)
本文介绍了在OpenClaw中实现轻量级状态机的方法,用于处理跨会话、多轮交互的长时业务流程。主要内容包括: 状态机核心概念:由状态、事件、转移和上下文组成,支持中断与恢复,适用于请假审批、订单审核等持续数小时/天的流程。 技术实现: 通过YAML定义状态机流程(包含状态和转移规则) 实现状态机引擎核心类,处理状态转换和事件响应 使用存储接口实现持久化管理器,确保流程中断后可恢复 应用示例: 以请假审批流程为例,展示从提交申请到审批完成的完整状态转换 创建"leave_request"技
2026-04-08 07:00:00
234
原创 面试真题集(三):CUDA核心概念与内存优化专题
CUDA进阶核心知识20题精选解析 本文精选20道CUDA进阶面试题,系统覆盖内存层次、合并访问、共享内存、寄存器压力等核心内容。通过选择题、简答题和编程题三种形式,帮助开发者检验CUDA优化能力。 核心知识点解析: 内存层次:寄存器最快(1周期),共享内存约30周期,全局内存约400周期 合并访问:要求同一warp线程访问连续对齐地址,可提升30倍性能 共享内存优化:32个Bank结构,通过padding可消除Bank Conflict 原子操作:共享内存原子操作比全局内存快,但会强制串行化 寄存器溢出:
2026-04-07 18:00:00
28
原创 OpenClaw进阶实战(七):技能编排引擎——用YAML定义多步工作流
本文介绍了一个轻量级工作流引擎的设计与实现,用于OpenClaw平台中多个技能的协同工作。该引擎通过YAML声明式配置定义业务流程,支持顺序执行、条件分支、循环等控制结构,实现逻辑可视化与可配置。文章详细阐述了工作流引擎的核心概念、YAML定义格式(包括条件分支和循环语法)以及Python实现方案。通过"自动整理邮件附件"的完整案例,展示了如何将复杂业务拆解为多个可复用技能,并通过工作流编排实现高效协同。引擎具备错误处理机制,支持日志记录、忽略或终止等策略,确保流程可靠性。
2026-04-07 12:00:00
180
原创 进阶篇第17节:进阶篇总结:从“会写”到“会优化”——你已成为真正的CUDA调优工程师
从第1节到第16节,我们走过了进阶篇的完整旅程。如果说筑基篇让你学会了“写CUDA”,那么进阶篇让你学会了“写好CUDA”——不是靠感觉,而是靠数据;不是靠运气,而是靠系统的方法论。。今天,我们不罗列知识点,而是提炼进阶篇带给你的——这些才是你未来面对任何性能问题的真正底气。
2026-04-06 18:00:00
129
原创 OpenClaw进阶实战(六):自定义技能开发进阶——从结构到发布
本文介绍了OpenClaw技能的工程化开发方法,包括标准结构、生命周期管理、调试测试及发布流程。主要内容: 技能标准结构:规范目录包含manifest.yaml元数据、核心实现文件、测试目录等 生命周期钩子:通过继承Skill类实现on_load/on_unload等钩子,精细控制技能行为 调试与测试:支持独立运行调试和使用pytest编写单元测试 发布流程:详细说明如何打包技能并提交到ClawHub社区市场 文章以汇率查询技能为例,完整展示了从开发到发布的全过程,帮助开发者构建可维护、可测试、可共享的高质
2026-04-06 12:00:00
740
原创 进阶篇第16节:CUDA Task Graph——将操作序列化为图,彻底消除启动开销
CUDA Task Graph优化深度学习训练摘要 Task Graph技术通过将重复执行的kernel序列捕获为静态图,显著降低了深度学习训练中的启动开销。在典型训练迭代中,前向传播、反向传播和梯度更新等固定操作序列只需捕获一次,后续执行无需重复提交命令,启动延迟从微秒级降至纳秒级。测试显示,相比传统流式执行,Task Graph可提升训练吞吐量达38%。该技术特别适合固定工作流的场景,通过消除冗余启动开销,让GPU计算资源更专注于实际运算任务。
2026-04-05 18:00:00
35
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅