自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(193)
  • 收藏
  • 关注

原创 给 AI 赋予 “身体”:魔珐星云具身智能数字人(SDK 接入 + 多场景落地)

魔珐星云是魔珐科技推出的具身智能 3D 数字人开放平台,核心使命是为 AI 赋予 “身体” 与 “表达能力”。与传统数字人平台不同,它不只是提供单一的数字人形象,而是通过全栈式技术封装,让开发者无需关注复杂的 3D 渲染、动作生成等底层逻辑,只需简单调用 SDK,就能让大模型具备语音、表情、动作兼备的多模态交互能力。星云具身驱动能力,将 AI 的表达从“文本”升级为“ 3D 多模态”。它可基于文本输入,实时生成语音、表情与动作,驱动 3D 数字人或人形机器人,实现如真人般自然的表达。

2025-12-09 19:39:02 49100

原创 不止是代码生成!Doubao-Seed-Code 自主规划 + Bug 修复 + 超强视觉理解,端到端搞定复杂应用

在11月11日,火山引擎正式发布豆包编程模型(Doubao-Seed-Code),本次发布的豆包 code 模型,是一次面向 Agentic 编程任务的深度优化,支持 256k 长上下文,可以让模型轻松处理长代码文件,多模块依赖等复杂场景,能够更好的支持端到端自主编程,在全栈开发中表现良好,尤其是前端能力表现突出,其次,Doubao-Seed-Code 还是国内首个支持视觉理解能力的编程模型,可以参考 UI 设计稿,截图或者手绘草图来生成代码,或者对生成页面进行视觉比对,能够自主完成样式和 bug 修复,大

2025-11-23 10:46:19 51790

原创 openGauss 作为 RAG 向量数据库的深度测评

作为一名长期关注向量数据库和 RAG(检索增强生成)技术的开发者,我最近对 openGauss 7.0 的向量能力进行了深入测试。openGauss 作为开源数据库,在 AI 场景下的向量特性一直备受关注。本文将从实际使用角度,分享我在构建 RAG 系统过程中的真实体验。

2025-11-22 16:56:07 31242

原创 用 openGauss 构建智能体记忆管理系统:让 AI 记得“昨天说过什么”

实测性能(百万条记忆样本):· Top-3 语义检索平均延迟:≈ 25~30ms;· 插入与更新性能优于 PostgreSQL + pgvector;· 并行检索模式下可达每秒 3000+ 向量比较。

2025-11-13 00:19:38 30122

原创 实战分享:如何用 Bright Data + RPA 打造一个自动化电商情报系统

通过实际体验不难发现无需手动切换平台比价,无需人工整理 Excel 数据,用户只需在影刀 RPA 界面输入商品名称,系统便会自动触发 Bright Data 的全球数据采集网络,突破电商反爬机制,在 10 分钟内将亚马逊等多平台的商品价格、销量、评价等数据结构化抓取并存储至云端。

2025-05-25 19:15:11 36732 19

原创 Stable Diffusion WebUI 远程用cpolar 帮我搞定异地 AI 绘画需求

Stable Diffusion WebUI 的本地化优势搭配 cpolar 的远程访问能力,让 AI 绘画工具的使用场景更丰富,不再受限于固定的使用环境,日常创作和工作协作都更灵活,是提升 AI 绘画实用性的实用组合。cpolar官网-安全的内网穿透工具 | 无需公网ip | 远程访问 | 搭建网站。

2026-02-10 08:49:55 15879 12

原创 CANN Runtime 仓库深度工程解析:上下文生命周期、高并发调度与异构资源的原生仲裁机制

CANN Runtime 不仅是执行环境,更是系统性能和稳定性的基石。其深度体现在对显存的定制化池化管理、基于 Event 的高效异步调度、对硬件对齐的严格遵守,以及对性能和错误的全面可观测性。Runtime 成功地将复杂的硬件资源管理和并发控制抽象化,为上层应用提供了高性能、隔离性强的计算基础。

2026-02-07 12:24:20 150 1

原创 Runtime 内存管理深化:推理批处理下的内存复用与生命周期精细控制

在 CANN 架构中,runtime仓库不仅是任务调度的中枢,也是异构显存(HBM)资源的首要管理者。特别是在高并发、低延迟的推理服务(Inference Service)场景中,内存的分配与回收效率直接决定了系统的吞吐量和延迟稳定性。Runtime 内存管理器必须超越简单的,通过精密的池化、复用和同步策略,来应对推理任务的内存特性。

2026-02-07 12:22:55 208

原创 ops-math 算子库的深度工程剖析:超越精度极限的原子级数学运算优化

ops-math算子库是异构计算平台中提供基础数学运算的基石。它的核心价值在于将软件层面的数学语义,直接、无损地转化为硬件加速单元(Vector Unit 和 Tensor Core 相关的原生指令)。对于 LLM 等计算密集型任务,该库的优化策略直接决定了计算效率的上限。

2026-02-07 12:22:08 235

原创 ops-math 算子库的泛化能力:广播机制、标量操作的硬件实现与类型系统

在深度学习的底层计算中,算子的执行效率直接决定了模型整体的吞吐量。ops-math作为计算栈中的核心数学库,承载了从基础四则运算到复杂张量变换的原子逻辑。其中,广播机制(Broadcasting)是处理多维不规则张量的关键技术。通过对硬件寄存器复用、内存访问模式及数值精度的深度优化,ops-math确保了算子在复杂拓扑结构下的执行性能与数值稳定性。

2026-02-07 12:21:14 214

原创 ops-math 算子库的极限深度解析:向量单元的指令级饱和与混合精度计算的工程实现

ops-math库是异构加速架构中实现周期级性能优化的核心体现。它通过对硬件 VU 和整数 ALU 的深度理解,将数学操作转化为精度受控、对齐完备、且高度向量化的指令集。其工程实践集中在对多精度数据类型的精细化管理和对底层指令流水线的最大化利用上。

2026-02-07 12:20:48 532

原创 GE 引擎与控制流:处理动态条件分支和循环结构到静态 NPU 图的转换

GE 引擎是 CANN 架构的静态优化大脑。它通过将复杂的控制流转换为可预测的谓词执行序列,并依赖精确的资源预估和算子融合技术,确保了即使在处理动态形状和条件分支的场景下,NPU 也能以数据流驱动的方式,实现最高效的硬件利用率。

2026-02-07 12:19:25 316

原创 GE 引擎的并行化重构:模型并行图的粒度控制与通信-计算切换点优化

Task 粒度的封装:GE 将优化后的图分解为粒度最小的执行单元(Task)。这些 Task 明确了要执行的算子、输入输出的物理地址(Static Address)以及所需的硬件资源。异步指令流生成:GE 生成的任务序列是异步的,它包含了所有必要的同步点,用于指导 Runtime 调度器在 Device 侧管理并发流。

2026-02-07 12:18:35 278

原创 GE 引擎的 Tiling 策略内联与自定义算子的图表示

在 CANN 异构计算架构中,**GE(Graph Engine,图引擎)**是实现计算图到硬件指令流转换的核心编译单元。它的任务是将上层深度学习框架的抽象模型,通过一系列复杂的优化(如算子融合、内存分配、Tiling 策略选择),转化为最优的、可直接在 NPU 上执行的离线模型(OM)。其中,Tiling(分块)策略的选择和管理是 GE 性能优化的最关键环节,它直接决定了数据局部性、并行度以及内存带宽的利用效率。

2026-02-07 12:17:54 386

原创 极致任务并发:深度计算 Runtime 的硬件调度与执行流驱动机制

Runtime 是连接计算图(Graph Engine, GE)优化结果与底层硬件执行单元的关键中枢。它的核心职能是将编译后的逻辑指令转化为硬件可识别的、高并发的任务序列。在追求极致性能的异构计算环境中,Runtime 通过精密的任务描述符管理、细粒度的流同步机制以及资源池化策略,确保了模型在多任务、高负载场景下的稳定性和低延迟执行。

2026-02-07 12:16:49 642

原创 Runtime 动态链接与算子热插拔:自定义算子加载机制与模块化管理

CANN Runtime 构成了异构计算的执行闭环。它通过Stream/Event 机制实现高效的异步并发调度,通过静态内存池技术和生命周期分析实现显存的极致复用,并通过深度集成的维测组件提供了前所未有的系统可观测性。理解 Runtime 的工作原理,是确保 LLM 等复杂模型能够在异构硬件上稳定、高性能运行的根本。CANN 组织链接Runtime 仓库链接。

2026-02-07 12:15:39 328

原创 CANN HCOMM 底层架构深度解析:异构集群通信域管理、硬件链路使能与算力重叠优化机制

在超大规模模型训练中,计算集群的扩展性取决于节点间数据交互的效率。HCOMM 作为计算架构中集合通信算法的底层支撑库,负责管理复杂的物理链路并提供高效的内存访问模式。通过对硬件资源的深度调度,它为分布式训练构建了支撑万卡集群协同工作的高带宽、低延迟逻辑网络。

2026-02-06 20:41:43 269

原创 HCOMM 基础库深度解析:异构通信栈的 Rank 拓扑感知、资源池化与跨节点零拷贝实现

HCOMM 库是实现大规模分布式 AI 训练的神经系统。通过精细的拓扑感知实现算法的动态路由选择,通过静态资源池化消除运行时开销,以及通过对底层硬件通信引擎的直接、异步调度,HCOMM 确保了数据可以在 NPU 之间以接近理论峰值的速度高效流动,是提升模型并行训练效率的关键软件层。

2026-02-06 20:37:23 350

原创 CANN SHMEM 深度解析:PGAS 编程模型与单边通信的极致性能

在超大规模分布式 AI 集群中,通信模式的选择直接影响系统的可扩展性。库通过将 OpenSHMEM 标准与异构计算架构的物理特性相结合,为开发者提供了一种基于的高性能通信方案。其核心优势在于单边通信(One-sided Communication)机制,允许处理单元(PE)在不依赖目标 PE 任何软件参与的情况下,直接完成对远端显存的读写,从而实现极低延迟的数据交互。

2026-02-06 20:31:46 395

原创 CANN SHMEM 深度解析:PGAS 编程模型与单边通信的极致性能

在超大规模分布式 AI 计算中,集合通信(如 AllReduce)虽然高效,但其同步机制对于细粒度的、非规则的访存模式(如图计算、稀疏更新)显得过于僵硬。库正是为解决这一挑战而设计。它基于 OpenSHMEM 标准,引入了编程模型,实现了跨设备显存的直接单边通信(One-sided Communication),极大地降低了数据交互的延迟和同步开销。

2026-02-06 20:29:13 215

原创 CANN ascend-transformer-boost 深度解析:Transformer 算子融合架构、内存布局优化与推理加速技术

通过深度融合、分页显存管理以及指令级向量化重构,为 Transformer 模型在昇腾处理器上的运行提供了坚实的底层支持。它解决了大模型推理中的显存碎片化和带宽瓶颈问题,通过全路径的硬件协同优化,实现了从算子到全图的极致性能跃迁。对于致力于提升大模型生产环境吞吐量的开发者,该库是实现高性能 AI 服务的核心基础设施。

2026-02-06 20:13:48 246

原创 CANN ascend-transformer-boost 架构解析:融合注意力算子管线、长序列分块策略与图引擎协同机制

在当前 AI 大模型快速迭代的背景下,Transformer 架构已成为算力消耗的主力军。其计算特征决定了模型执行效率高度依赖于底层存储层级的调度能力。作为计算平台推出的专项加速库,致力于打破原子算子间的执行边界,通过构建定制化的融合算子管线,解决长文本处理和高吞吐场景下的性能瓶颈。

2026-02-06 20:13:11 254

原创 CANN ascend-transformer-boost 深度解析:针对大模型的高性能融合算子库与算力优化机制

库是专为 Transformer 架构设计的高级加速层。它超越了通用算子组合,通过对硬件指令集、内存层级和 KV 缓存管理的深度定制,解决了 LLM 推理中和这两大核心瓶颈。

2026-02-06 20:12:29 296

原创 CANN ops-math 算子库深度解析:数学原子算子的指令流水线调度、存储对齐与数值稳定性机制

在神经网络的执行图中,数学基础算子扮演着“数字地基”的角色。卷积和矩阵乘法固然占据了大部分算力,但激活函数、归一化以及各类损失函数的计算逻辑则完全依赖于这些原子操作。ops-math通过底层指令集(Intrinsics)将数学公式直接映射为硬件微指令。相比于通用计算库,它绕过了复杂的抽象层,直接在寄存器级别进行数据流转。无论是标量操作还是张量运算,库内算子均遵循统一的编程模型,确保了逻辑的高度一致性。通过直接调用底层的数学函数原语,实现在微秒级响应下的极致计算效率。

2026-02-06 20:10:50 404

原创 CANN Ascend C 编程语言深度解析:异构并行架构、显式存储层级与指令级精细化控制机制

Ascend C 提供了全局同步原语,用于确保所有核心在进行下一步操作(如结果写回 Global Memory)之前,都完成了各自的分片计算。它基于 C/C++ 语法,通过引入特殊的类型和内置函数,赋予开发者直接管理计算核心算力、DMA 引擎和片上内存(Unified Buffer, UB)的能力,从而将算子的执行效率推向极致。开发者必须使用特定的修饰符来定义函数的运行环境,确保编译器选择正确的异构指令集编译路径,并明确任务的调度方。为兼顾开发效率,Ascend C 提供了封装了底层优化的高级类库。

2026-02-06 20:09:17 363

原创 Ascend C 编程范式深度解析:asc-devkit 如何实现对异构硬件指令集的底层精确控制

入口修饰符:核函数必须使用__global__标记,表示这是一个可由 Host 侧异步调度的执行单元。AI Core 属性绑定:使用__aicore__属性限定函数体的逻辑运行在 NPU 的计算单元上,从而允许编译器应用特定的优化规则,如针对 Tensor Core 的指令集。

2026-02-06 20:08:59 584

原创 用飞算JavaAI 做课程设计:我一周做出了能跑的蚂蚁智能项目管理平台

当我在浏览器里打开自己做的 “蚂蚁智能项目管理平台” 首页 —— 左侧导航栏整整齐齐列着 “项目管理”“我的任务”“流程管理”,中间区域的 “项目总数”“任务总数” 卡片清晰展示着数据,右侧还有任务状态的环形统计图表时,我盯着屏幕愣了好一会儿:这是一个刚学 Java 半年的大二学生能做出来的成品?毕竟一周前,我还在为 “怎么把项目数据和可视化图表连起来” 翻遍 ECharts 的文档,连一个简单的项目进度条都做不出来。

2026-02-05 19:33:14 15251 2

原创 NAS+会员万份奖品免费抽!远程办公族的福音:节点小宝让工作不再受地点限制

作为一名常年奔波在客户现场的咨询顾问,我一直在寻找完美的远程办公解决方案。直到遇见节点小宝,才发现原来工作真的可以不受地点限制。更重要的是,现在使用还能参与抽奖,赢取NAS设备和会员。还记得上周在客户会议室,急需调取公司电脑里的一份重要方案。若是以前,我只能尴尬地让同事帮忙查找,或者干脆打车回公司。但这次,我淡定地打开手机上的节点小宝APP,三秒钟就连上了公司电脑,顺利拿到了文件。

2026-01-30 08:15:34 4392 3

原创 打造专属文件保险柜:节点小宝 Windows 远程精准共享攻略

真正的便捷,从不以牺牲安全为代价。试试节点小宝,配置你的专属文件保险柜,享受既安全又高效的远程文件访问体验吧!

2026-01-13 20:30:34 18097 1

原创 从本地开发到跨网协作,GoLand 结合cpolar一起这样用才高效

GoLand 是专为 Go 语言设计的集成开发环境,核心功能包括智能代码补全、实时错误检测、多框架支持(如 Gin、Echo)及远程调试等。它适合所有 Go 语言开发者,无论是新手还是资深工程师,优点在于能大幅减少代码编写和调试时间,让开发流程更流畅。比如写 HTTP 接口时,输入几个字母就能弹出完整框架代码,新手也能快速上手。使用 GoLand 时,有个小心得:它的深度代码分析功能很实用,能提前揪出未使用的变量或潜在内存泄漏,但初次使用可能需要花点时间熟悉快捷键,不然容易忽略一些隐藏功能。

2026-01-12 18:52:37 16419 14

原创 节点小宝4.0 正式发布:一键直达,重新定义远程控制!

只需扫码或手机号登录,客户端就会自动扫描局域网,通过设备指纹库(如群晖DSM、威联通QTS的默认端口)精准识别设备类型,并自动生成服务卡片。以前访问NAS里的文件,你得是半个网络工程师,得配置SMB、WebDAV,甚至还得用命令行。无论你是拥有多台NAS的极客,还是需要远程办公的职场人,亦或是想把家里照片备份到电脑的普通用户,节点小宝4.0 都能为你带来前所未有的便捷!以前用手机远程控制电脑,电脑端要装服务,手机端也要下软件,设置复杂,还经常连不上。新升级的4.0版本对首页进行了大刀阔斧的改革,砍掉冗余,

2026-01-07 23:43:06 1491 1

原创 Catlass 模板库调试调优经验与踩坑记录

作为一名合格的开发者,除了需要具备优秀的代码编写能力,更需要具备强大的代码调试能力,假如你只会写代码,不懂的怎么样去调试代码,那肯定也是不行的,因为很多时候我们都是在调试BUG,而不是在写代码。作为开发者,我深深感受到 Catlass 作为一个强大的模板库,虽然上手确实有一定门槛,但一旦掌握了它的调试和调优方法,我就能充分释放昇腾 NPU 的澎湃算力。工欲善其事,必先利其器。各位开发者在做Catlass的开发的时候,我强烈建议大家可以先掌握一下Catlass 的调试技术,我一直认为代码3分靠写,7分靠调。

2025-12-25 22:26:21 5800

原创 Triton-Ascend 算子开发经验谈:从入门到性能调优实战

由于 NPU 的计算通常是按 Block 进行的(比如 128、256),当数据总量 n_elements 不是 Block Size 的整数倍时,如果不加 mask,就会导致内存越界访问,程序直接 Crash。Ascend C 确实强大,它赋予了我们对硬件的极致控制权,但不可否认,它的上手门槛相对较高,需要开发者对 Tiling(切分)、流水线同步、内存管理有非常深刻的理解。但我相信,随着社区的努力和官方的持续投入,Triton 必将成为昇腾生态中不可或缺的一环。相信我,打开新世界大门的感觉,真的很棒!

2025-12-25 22:24:46 16203

原创 程序员接单2025攻略:平台选择与实际操作全指南

Fiverr 是典型的服务卡片型自由职业平台,有点类似程序员接单版本的闲鱼,开发者可以把自己的技能拆成一个个产品,例如开发一款 Unity 小游戏、写一个自动化脚本、修复 Wordpress bug等,定价从低到高自行设置。不要因为是私单或者是朋友推荐啥的就放松警惕,合同或至少聊天记录需明确开发内容、交付时间、验收规则、付款节点、售后范围等细节,特别是需求扩展的处理方式,必须提前写清楚,否则就是扯皮。相比传统就业方式,接单的节奏更灵活、机会更多,但同时对经验、沟通和判断力的要求也更高。

2025-12-14 12:00:22 295 3

原创 Catlass 模板库调试调优经验与踩坑记录

作为开发者,我深深感受到 Catlass 作为一个强大的模板库,虽然上手确实有一定门槛,但一旦掌握了它的调试和调优方法,我就能充分释放昇腾 NPU 的澎湃算力。每次调整 Tile 大小、优化流水线策略、精细控制缓存和指令调度,都能让我直观地看到性能提升带来的巨大差异。各位开发者在做Catlass的开发的时候,我强烈建议大家可以先掌握一下Catlass 的调试技术,我一直认为代码3分靠写,7分靠调。

2025-12-10 20:29:06 810

原创 面向openEuler操作系统:OCR软件应用部署流程、性能评测

这充分说明,“openEuler + OCR”的技术组合不仅完全可行,而且性能强大,能够胜任企业级的OCR应用需求,为构建AI解决方案提供了坚实的技术支撑。最终,脚本汇总了平均处理时间,为性能评估提供了直接的数据。openEuler作为一款开源、免费的Linux发行版平台,由社区成员共同打造,致力于为数字基础设施提供稳定、高效、安全的操作系统底座,其生态建设与应用实践备受关注。本报告的核心目标是,在openEuler操作系统上成功部署OCR,并对其OCR识别项目的开发应用流程和性能进行全面测评。

2025-12-06 10:55:04 8955

原创 openEuler操作系统环境:目标检测软件开发实操与性能评估

本文系统研究了在openEuler操作系统上构建目标检测软件应用的完整流程,涵盖了环境搭建、模型训练、性能评估及优化等关键环节。实验以openEuler 22.03 LTS SP3为平台,采用YOLOv8模型在鸟类检测数据集上进行训练,通过CUDA 12.2加速实现GPU计算。研究结果表明,openEuler凭借其内核优化、异构计算支持和AI框架兼容性,在目标检测任务中表现出优异的性能和稳定性,推理速度达142 FPS,资源占用率降低18%以上。内核优化:采用Linux 5.10.0-136内核,支持。

2025-12-06 10:54:30 8918

原创 openEuler操作系统环境:研发人脸识别软件与系统性能评估

openEuler作为开源操作系统,在AI领域展现出显著优势。openEuler 24.03 LTS作为首个AI原生版本(2024年6月发布),采用"AI for OS"和"OS for AI"设计理念,基于Linux 6.6内核,全面支持AI框架和大模型部署。该版本内置TensorFlow、PyTorch、MindSpore等主流框架,并优化了CUDA、CANN等加速库,为AI应用提供开箱即用体验。openEuler的AI容器化技术尤为突出,通过等标准化镜像简化环境部署。对于人脸识别项目,其提供的。

2025-12-06 10:53:59 8677

原创 从0到1打造专属数字人:魔珐星云SDK接入实战演示

最近,魔珐科技发布了全球首个具有 3D 数字人开放平台——魔珐星云,将 AI 从对话框交互模式升级为能说会动的自然交互形态,让大模型突破文字交互限制,实现语音,表情,动作的自然表达或许你在AI模拟面试、虚拟客服咨询等场景中已感受过类似的数字人应用,但魔珐星云的核心优势在于,它为开发者提供了完整的开放平台与SDK工具包,让普通人也能轻松开发出属于自己的3D数字人应用魔珐星云3D数字人开放平台的发布,为开发者提供了一套低成本、高效率的3D数字人开发解决方案。

2025-12-05 20:02:03 892

原创 Gemini 3.0 多模态实测:国内直连攻略+DeepSider快速接入完整教程

它聚合了最新的Gemini 3.0 Pro和Gemini 3.0 Pro Thinking,以及Sora 2,GPT-5,Claude 4.5,Nano Banana 2,Grok4......等几十款全球热门的AI大模型。经实测,只花了3分钟不到,DeepSider接入的Gemini 3.0 Pro就成功跑出了完整的1600多行代码!可以看到,Gemini 3.0 Pro正确地理解了用户要求,动画也很流畅,代码中几乎没有Bug存在。

2025-12-04 12:19:16 806

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除