- 博客(210)
- 收藏
- 关注
原创 【端侧AI】基于 openvino + YOLOv11 构建多模态视觉分析终端 | 单目测距 | 单目测速
在边缘计算和工业视觉场景中,我们经常需要开发上位机软件来展示 AI 推理结果。不仅需要实时的检测画面,往往还需要集成深度测距数据统计以及持久化存储功能。本文将分享如何使用Python全栈技术(PySide6 + OpenCV + YOLOv11)开发一个极客风的视觉分析终端。该系统采用了UI 与 业务逻辑分离的多线程架构,支持 HTTP 方式调用远程深度估计 API,并实现了数据的实时记录与 CSV 导出。算法层:集成 YOLOv11 跟随算法。通信层:HTTP 接口解耦重型计算(深度估计)。应用层。
2025-12-31 08:15:00
876
原创 解决Ubuntu中OpenCV报错:Qt平台插件“xcb”加载失败(apt安装方案实测有效)
在Ubuntu(尤其是嵌入式设备/非标准镜像)中使用OpenCV调用USB摄像头时,经常遇到错误,最终导致程序崩溃。本文记录我的踩坑过程与。
2025-12-28 11:58:57
463
原创 【硬核部署】在 RK3588上部署毫秒级音频分类算法
YAMNet是由 Google 开发的一款先进的预训练深度神经网络,专门用于音频事件分类(Audio Event Classification)。它能够识别多达521 种音频类别,涵盖了从日常生活中的人声、动物叫声到工业环境下的各类噪音。通过本文,我们实现了 YAMNet 在瑞芯微 NPU 上的全链路部署。从 MobileNet 的轻量化设计到 RKNN 的硬件加速,这套方案为边缘侧音频智能化提供了坚实的基础。下一步探索:自定义类别:如果你需要识别特定的工业异响,可以参考重新导出并微调模型。多路并发。
2025-12-24 08:22:34
1078
原创 【硬核部署】RK3588 毫秒级实时图像分类,从模型训练到 RKNN 全流程落地
在嵌入式 AI 领域,“模型部署”是打通实验室与真实世界的最后一公里。:作为轻量级神经网络的典范,它凭借“深度可分离卷积”和“倒残差结构”,在极低的计算量下保持了高精度。RK3588:作为国产高端 SoC 的代表,其内置的 NPU 拥有6TOPS的强大算力。将两者结合,可以实现低功耗、高实时性、数据不出本地的边缘计算解决方案(如道路病害检测、工业质检等)。相比纯 CPU 推理,NPU 加速通常能带来10-20 倍的性能提升。使用迁移学习,加载预训练权重并修改最后一层全连接层。
2025-12-21 18:42:03
563
原创 【效率工具】Mamba:让你的 Conda 跑得像闪电一样快
如果你觉得连 Miniforge 都太重了,不想安装 base 环境里的 Python,那么Micromamba是你的终极选择。特点:它是一个纯 C++ 编译的静态二进制文件(只有一个可执行文件!),不需要依赖任何现有的 Python 环境。适用场景:Docker 容器构建、CI/CD 流水线、极简主义者。SHELL之后你就可以用来管理环境了,极其轻量。如果你的时间很宝贵,或者受够了转圈圈,请立刻切换到 Mamba。它是 Python 环境管理的现代化升级,一旦用过,就再也回不去了。GitHub。
2025-12-16 09:00:00
956
原创 【端侧AI】YOLO11推理速度飙升400%!OpenVINO INT8 量化与预处理加速全攻略(附源码)
是一个开源工具包,用于在云中、本地和边缘部署高性能人工智能解决方案。使用生成式和传统人工智能模型(来自最流行的模型框架)开发您的应用程序。利用英特尔®硬件的全部潜力转换、优化和运行推理。OpenVINO中有三种主要工具可以满足您的所有部署需求:那今天我们大家一起探索怎么用OpenVINO加速YOLO11,来实现400%的速度飙升吧!
2025-12-15 22:22:50
421
原创 X-AnyLabeling 自动数据标注保姆级教程:从安装到格式转换全流程
是基于的增强版,由社区开发者 CVHub520 维护。它集成了 YOLOv5/v8、SAM(Segment Anything Model)、Grounding DINO、RT-DETR 等主流目标检测与分割模型,支持一键自动标注,并兼容 LabelMe、YOLO、COCO、VOC 等多种标注格式。✅ 支持 Windows / Linux / macOS✅ 图形化界面,操作简单✅ 自动标注 + 手动修正无缝衔接✅ 多语言(含中文)支持左侧:标注工具栏 + 模型控制面板中间:图像显示区域右侧。
2025-12-14 13:43:24
2906
5
原创 【图像算法 - 40】海洋监测应用:基于 YOLO 与 OpenCV 的高精度海面目标检测系统实现
本文详细介绍了基于YOLOv11和 OpenCV 实现海面目标检测的完整流程。通过端到端的目标检测框架,我们能够同时识别5 类关键海面目标,为海上安全、应急救援、港口管理和滨海旅游提供强大的视觉智能支持。该系统可集成至无人机、巡逻艇、岸基监控平台,构建全天候、全覆盖的“智慧海防”感知网络,在海洋强国战略中发挥重要作用。🚨应用场景延伸搜救任务中自动定位落水者(swimmer)与救生设备港口禁航区监控非法船只(boatjetski)闯入海上游乐区统计摩托艇数量,保障游客安全。
2025-12-13 16:58:32
1093
原创 【图像算法 - 39】环保监测应用:基于 YOLO 与 OpenCV 的高精度水面垃圾检测系统实现
本文详细介绍了基于YOLOv12和 OpenCV 实现水面垃圾检测的完整流程。通过单类别目标检测框架,我们能够高效、准确地定位各类漂浮废弃物,为水域清洁、生态评估、智能环卫提供可靠的技术手段。该系统可轻松部署于无人机、无人船、岸基摄像头等平台,助力“美丽中国”与“无废城市”建设,在智慧环保、河湖治理、海洋保护等领域具有广阔的应用前景。🌍社会价值:自动化垃圾监测不仅能降低人力成本,更能为污染溯源、治理成效评估提供数据支持,推动环境治理从“被动响应”向“主动预防”转变。
2025-12-13 16:26:56
949
原创 【图像算法 - 38】工业巡检应用:基于 YOLO 与 OpenCV 的高精度管道缺陷检测系统实现
本文详细介绍了基于YOLOv12和 OpenCV 实现管道缺陷检测的完整流程。通过端到端的目标检测框架,我们能够自动识别7 类关键管道缺陷,大幅提升巡检效率与准确性。该系统可集成至管道机器人、CCTV分析平台或无人机巡检系统,为城市生命线工程的安全运行提供智能保障,在智慧城市、能源安全、工业4.0等领域具有广阔应用前景。🔧工程建议:实际部署时,建议结合 GIS 信息将缺陷位置映射到真实管网坐标,生成结构化维修工单,实现“检测-定位-派单”闭环。
2025-12-13 15:46:06
1855
原创 【图像算法 - 37】人机交互应用:基于 YOLOv12 与 OpenCV 的高精度人脸情绪检测系统实现
本文详细介绍了基于YOLOv12和 OpenCV 实现人脸情绪检测的完整流程。通过端到端的目标检测框架,我们实现了人脸定位与8类情绪识别的一体化,避免了传统级联方法的复杂性与误差传递。该系统部署简单、响应迅速,可广泛应用于智能座舱、远程教育、虚拟现实、心理健康监测等前沿领域,为人机共情交互奠定技术基础。🔒伦理提醒:情绪识别技术涉及个人隐私与心理状态,使用时须遵守相关法律法规,获取用户知情同意,并避免用于歧视性或操纵性场景。
2025-12-13 11:48:29
894
原创 超级大更新?!NVIDIA CUDA 13.1:开启下一代GPU编程新纪元,CUDA Tile与性能飞跃双驱动
CUDA 13.1以CUDA Tile为核心,通过GPU资源精细化管理、开发者工具升级、数学库性能跃升和CUB API简化,为下一代GPU编程奠定了坚实基础。无论是AI算法开发、高性能计算,还是低延迟业务场景,都能通过该版本获得显著的开发效率和性能提升。立即行动访问NVIDIA CUDA官网下载CUDA Toolkit 13.1;查看CUDA Tile专属资源,快速上手Tile-based编程;参考官方文档,探索Green Context、MPS静态分区等新功能在业务中的应用。
2025-12-06 12:47:13
2159
原创 SAM 3:用概念分割万物——Meta 开源的下一代通用分割模型详解
SAM 3 是一个统一的基础模型,专为可提示的图像与视频分割任务而设计。用户只需提供一段自然语言(如“穿红色球衣的球员”)、一个点、一个框或一张掩码图,SAM 3 就能精准地分割出所有符合描述的对象,并在视频中持续追踪它们。与前代SAM 2✅支持开放词汇(open-vocabulary)文本提示:不再局限于预定义类别,而是能理解任意短语(如“复古风格的咖啡杯”、“左后轮”)。✅穷尽式实例分割(exhaustive segmentation):对给定概念,自动找出图像/视频中所有匹配的实例,而非仅一个。
2025-12-05 20:21:05
1411
1
原创 在 Windows 上解决 ModuleNotFoundError: No module named ‘triton‘ 问题:从失败到成功安装 Triton 的完整指南
Windows 上的 AI 开发生态正在改善,但某些底层库(如 Triton)仍存在兼容性挑战。借助社区力量(如),我们可以绕过复杂的编译过程,快速进入模型训练与推理阶段。希望这篇指南帮你节省了数小时的调试时间!如果你成功安装,欢迎在评论区分享你的配置(Python/CUDA/Triton 版本),帮助更多开发者。参考资料Triton 官方 GitHub:https://github.com/triton-lang/triton。
2025-12-05 12:53:24
1034
原创 在 RK3588 开发板上部署 DeepSeek-R1-Distill-Qwen-1.5B 模型:RKLLM API 实战指南
通过 RKLLM 工具链,我们成功将1.5B 级别的高性能推理模型部署到 RK3588 边缘设备,实现在无网络、低功耗环境下运行复杂语言任务。这为国产芯片在 AIoT、教育、工业等场景的应用打开了新可能。未来方向支持多模态模型(如 Qwen-VL)集成 FastAPI 构建本地 REST 服务优化 W4A16 量化策略进一步提速。
2025-12-03 23:23:34
1208
原创 vLLM、SGLang 与 TensorRT-LLM 综合对比分析报告
引擎开发方开源状态主要目标vLLMUC Berkeley / vLLM 团队✅ 开源(Apache 2.0)高吞吐、低延迟的 LLM 推理服务,支持 PagedAttentionSGLang✅ 开源(MIT)结构化生成 + 高效推理,统一 prompt 编程与执行NVIDIA✅ 开源(Apache 2.0)最大化 NVIDIA GPU 利用率,极致优化推理性能引擎优势劣势vLLM生态成熟、易用性强、显存高效对 NVIDIA 最新硬件特性支持滞后SGLang创新性结构化生成范式。
2025-12-03 17:13:27
331
原创 强烈推荐:Xterminal —— 一款现代化、高效且颜值爆表的终端工具
Xterminal 是一款开源、跨平台(支持 Windows / macOS / Linux)的现代化终端模拟器。它不仅拥有媲美 VS Code 的界面设计,还集成了多标签页、分屏、主题自定义、快捷键管理、SSH 集成等强大功能,真正做到了“颜值与实力并存”。如果你还在忍受老旧终端的卡顿、丑陋配色或功能缺失,那么 Xterminal 很可能就是你一直在寻找的“理想型”。在这个“效率即生命”的开发时代,选择一款趁手的工具,往往比盲目加班更重要。
2025-12-02 22:28:33
882
原创 【图像算法 - 36】医疗应用:基于 YOLOv12 与 OpenCV 的高精度脑肿瘤检测系统实现
本文详细介绍了基于YOLOv12和 OpenCV 实现脑肿瘤检测的完整流程。通过定义 negative和 positive两类目标,我们构建了一个既能定位又能初步判别肿瘤性质的智能系统。该技术在医学影像辅助诊断、大规模筛查、手术规划等领域具有广阔的应用前景。🔒重要声明:本系统旨在辅助医生提高工作效率,不能替代专业医学诊断。所有 AI 输出必须由执业医师复核确认。
2025-12-01 19:38:02
1234
原创 【图像算法 - 35】医疗/制药应用:基于 YOLOv12 与 OpenCV 的高精度药片检测系统实现
在制药工业、医院药房及零售药店中,药片(片剂)是最常见的药品剂型。其种类繁多,形状(圆形、椭圆形、异形)、颜色、尺寸、表面标识(刻字、压痕)各异。通过深度学习强大的特征提取能力,结合 OpenCV 的图像处理功能,我们能够构建出高效、准确的自动检测系统。,结合强大的计算机视觉库 OpenCV,构建一个高效、准确的药片(药品片剂)检测与识别系统。我们将从环境搭建、数据准备、模型训练到最终的检测应用,手把手带你完成整个流程,为药品分拣、质量控制、智能药房、防伪溯源等场景提供实用的解决方案。
2025-11-28 20:09:34
1506
原创 【图像算法 - 34】文档应用:基于YOLOv12与OpenCV的高精度签名检测系统实现
YOLOv12 凭借其先进的架构设计,在复杂文档背景下实现了对签名区域的鲁棒定位,为智能文档处理、合规审计、数字身份认证等工业级应用提供了可靠的技术支撑。随着人工智能技术的发展,利用计算机视觉自动、快速地检测出文档图像中的签名区域,已成为提升业务流程自动化水平的迫切需求。,结合强大的计算机视觉库 OpenCV,构建一个高效、准确的文档签名检测系统。我们将从环境搭建、数据准备、模型训练到最终的检测应用,手把手带你完成整个流程,为电子合同审核、银行单据处理、办公自动化等场景提供实用的解决方案。
2025-11-27 22:06:45
1125
原创 【Python】uv 虚拟环境管理
uv在虚拟环境管理方面虽然不像virtualenv或conda那样主打“全功能环境管理”,但它在这几个维度上具有明显优势。
2025-11-27 19:32:48
440
原创 【Web】端口被占用?一行命令解决 Web 服务启动失败问题
端口被占用不是 bug,而是系统保护机制。遇到,要么换端口,要么关掉旧进程——两分钟就能搞定!下次再看到这个错误,你就知道:不是代码的问题,只是端口“太忙”了 😄。
2025-11-26 14:46:37
419
原创 【CUDA】如何控制程序使用哪张显卡?一文讲清楚 CUDA_VISIBLE_DEVICES
是 NVIDIA CUDA 提供的一个环境变量。它的作用是限制当前进程“可见”的 GPU 设备。换句话说,即使机器上有 8 张显卡,你也可以通过这个变量告诉程序:“你只能看到第 2 和第 3 张卡”。注意:这里的编号是从0 开始的,也就是说,如果你有 4 张卡,它们的原始编号就是 0、1、2、3。是一个轻量、高效、无需修改代码就能控制 GPU 使用的利器。只需一行命令,就能让你的程序精准使用指定的显卡,避免资源冲突,提升开发和部署效率。
2025-11-26 14:35:04
409
原创 【硬核部署】Qwen3-VL 在 RK3588 上的部署
标签:#多模态 #Qwen3-VL #RKNN #RKLLM #边缘AI #Rockchip #模型部署大家好,上次有B站的同学说想看看视觉语言大模型 Qwen3-VL在RK3588上的效果。那今天我们来聊聊这个非常硬核但极具实用价值的话题——。
2025-11-26 09:12:37
1857
6
原创 作为一名工程师,何不试试瑞芯微?
瑞芯微最打动我的,是它的技术路线和工程师需求高度契合 —— 不盲目追先进制程,而是在 8nm、14nm 这些「成熟工艺」上深优化;不搞封闭生态,而是开放工具链让工程师自由发挥。对工程师而言,试一次瑞芯微,或许能发现:原来不用为了参数妥协成本,不用为了生态绑定方案,也能做出稳定可靠的产品。毕竟,我们的价值从不是驯服最复杂的芯片,而是用合适的工具解决实际问题 —— 这正是值得试试瑞芯微的原因。
2025-11-25 21:48:37
1044
1
原创 【BUG】MeCab 报错 “no such file or directory: /usr/local/etc/mecabrc”?一文彻底解决
场景推荐方案需要日语支持,或希望保持项目完整性✅ 安装并复制mecabrc仅使用中/英文,追求最小依赖✅ 移除japanese模块依赖,内联必要函数无论你是在 Orange Pi 5 Ultra、RK3588 开发板,还是普通 Ubuntu 服务器上部署 TTS,这两种方法都能帮你快速绕过 MeCab 配置陷阱。💡 小建议:在边缘设备部署前,先用测试 MeCab 是否可用,可避免后续调试弯路。
2025-11-23 20:40:29
706
原创 如何将修改后的Docker容器保存为镜像并导出为tar文件
在使用Docker的过程中,我们经常需要对现有的容器进行一些修改(例如安装软件、配置环境等),然后希望将这些更改保存下来以便日后使用或者分享给他人。这篇文章将会教你如何一步步地将修改后的容器保存为一个新的Docker镜像,并将其导出为一个.tar文件。
2025-11-21 16:35:39
399
原创 解决 `ImportError: cannot import name ‘Swift‘ from ‘swift‘`:正确安装 ModelScope SWIFT 框架的方法
支持 Qwen、LLaMA、ChatGLM 等主流大语言模型的参数高效微调(PEFT),包括 LoRA、QLoRA、Adapter 等方法。机制依赖于已安装的包(package)结构。错误信息表明,当前环境中名为。经核查,PyPI(Python Package Index)上存在多个名为。则会安装 OpenStack 相关的客户端库,该库不包含。某些库的安装包名与导入名不一致(如。的类对象表示,表明导入成功。字样,则说明安装了错误的包。类,因此导致导入失败。包,不会影响后续安装。),应以官方文档为准。
2025-11-21 13:34:11
936
原创 【硬核部署】在 RK3588 上部署 Zipformer 中英双语语音识别模型 | B站同步更新 | 小米公司
源码安装kaldifeatZipformer + RK3588 的组合为嵌入式设备带来了强大的端侧中英语音识别能力。通过 Rockchip 的 RKNN 工具链,我们能高效部署大模型,在 Orange Pi 5 Ultra 等国产开发板上实现低延迟、高准确率的 ASR 应用。🚀 下一步:尝试 INT8 量化、集成到 ROS 系统、或对接麦克风阵列实现实时语音交互!
2025-11-16 13:59:35
1247
4
原创 从 RV1126 到 RK3588:深度解锁 Rockchip 芯片频率控制的秘密
这个脚本是 Rockchip 平台进行性能调优的实用工具,体现了嵌入式 Linux 中通过 sysfs 接口精细控制硬件资源的典型方法。理解其背后的策略分发机制和硬件差异,有助于开发者快速适配新芯片或诊断频率设置问题。📎附:脚本适用场景AI 推理性能基准测试功耗分析与热管理稳定性压力测试(固定频率排除波动干扰)希望本文能帮助你更好地驾驭 Rockchip 芯片的性能潜力!🚀。
2025-11-16 12:11:17
1218
原创 在 RK3588 上成功安装 kaldifeat:避坑指南与实战经验
方法是否推荐说明❌ARM64 无 wheel,网络依赖必失败离线手动编译✅✅✅一次配置,长期可用,功能完整预计算特征绕过✅✅适合 demo、测试、资源紧张场景在国产芯片生态日益成熟的今天,掌握这类“离线编译”技能,能让你在 Orange Pi、Radxa、Khadas 等 ARM64 开发板上更从容地部署前沿 AI 模型。
2025-11-16 01:52:05
602
原创 【ASR论文】Zipformer:更快、更强的语音识别编码器 | 小米公司
Zipformer 展示了如何通过系统级协同设计多尺度建模是提升效率与性能的有效路径;简化归一化定制激活函数可改善训练动态;优化器创新(如 ScaledAdam)能释放模型潜力,甚至减少对复杂归一化的依赖。💡未来方向:该范式或可推广至其他序列建模任务(如语音合成、语音翻译)。推荐阅读:如果你正在训练 Conformer 类模型遇到收敛慢、显存爆、复现难等问题,Zipformer 的代码与设计思想值得深入研究!
2025-11-15 23:14:37
1493
1
原创 解决 Windows 系统 YOLO 训练 “An attempt has been made to start a new process“ 错误 | Ultralytics YOLO
这个错误是,核心原因是:Windows 不支持 fork 方式创建子进程,必须通过 spawn 方式,但 spawn 要求主模块的代码必须放在 if== ‘’: 保护块中,否则会重复执行主模块代码导致进程启动冲突。
2025-11-15 19:23:32
383
原创 Ultralytics YOLO26:为边缘设备而生的新一代端到端目标检测模型
YOLO26 不只是 YOLO 系列的又一次迭代,更是对“实用主义 AI”理念的践行——在精度与效率之间找到最佳平衡,让强大 AI 能真正落地于千行百业的边缘终端。当大模型在云端卷出天际,YOLO26 则选择俯身贴近现实世界,为每一台手机、每一个摄像头、每一架无人机注入智能之眼。敬请期待它的正式登场!🚀延伸阅读YOLO Vision 2025 大会官网Muon 优化器论文Ultralytics 官方文档。
2025-11-14 13:52:35
1223
原创 Python 代码打包为 EXE 完全指南(图文详解 + 问题排查)
给 EXE 添加个性化图标(格式必须为.ico,推荐尺寸 256x256)。PyInstaller 是 Python 打包的首选工具,通过基础命令可快速生成 EXE,通过 spec 文件可实现精细化配置。先确保项目可正常运行,再进行打包;GUI 项目必加-w参数,避免命令行窗口;依赖缺失用补充;遇到问题先去掉-w参数查看报错信息。
2025-11-12 13:53:14
4595
原创 Git 仓库瘦身实战:彻底清理历史大文件与冗余目录(实测有效)
Git 仓库瘦身的核心是「彻底清理历史大文件 + 禁止后续误提交」,通过 BFG 工具可高效移除冗余内容,配合 Git 垃圾回收和远程强制推送,能快速将臃肿仓库恢复轻量化状态。后续通过规范提交行为和完善.gitignore配置,可长期保持仓库精简,提升开发协作效率。
2025-11-11 16:09:11
756
原创 【图像算法 - 33】基于YOLOv11+PPOCRv5的智能车牌检测与识别系统:YOLOv11 + UI界面 + SQL + 数据集实现
本文详细介绍了基于的车牌检测与识别系统。该方案将目标检测与专用OCR网络结合,兼顾高精度、高鲁棒性与部署效率,可广泛应用于智慧交通、园区安防、无人值守停车场等场景。通过深度学习技术,让机器真正具备“慧眼识牌”的能力,为城市智能化提供底层视觉支持。
2025-11-06 00:01:16
885
原创 在使用 `resolvconf` 的 Ubuntu 系统上持久化 DNS 设置
目标操作永久设置 DNS编辑立即生效运行验证nslookup完成后,、Kafka 连接等依赖网络解析的功能将恢复正常。
2025-11-05 16:36:19
365
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅