视觉算法小姥-CSDN博客

原创 YOLOV11-OBB之ONNX转RKNN并跑在模拟器上

本文介绍了如何将ONNX模型转换为RKNN格式并在模拟器上运行的完整流程。主要内容包括：1）使用RKNN API进行模型转换；2）实现图像预处理letterbox_resize函数；3）处理旋转矩形检测框的几何计算；4）实现旋转NMS算法；5）解析RKNN模型输出并后处理。代码提供了完整的检测流程，包括旋转矩形处理、IOU计算、Sigmoid/Softmax激活函数等关键实现，适用于航空影像中的15类目标检测任务。

2026-05-28 16:49:08 83

原创 yolov11-obb在rk芯片部署的onnx模型输出的剪枝处理

这篇文章介绍了一个用于优化ONNX模型的Python脚本，主要包含两个核心功能：1) 修复Split节点的属性兼容性问题，将旧版ONNX的split属性转换为新版要求的常量输入形式；2) 模型剪枝功能，可以根据指定输出节点反向追踪依赖关系，移除模型中不必要的节点和初始化参数。脚本通过分析计算图结构，智能识别需要保留的节点，并重构模型的计算图，同时处理了初始化和张量信息等元数据。这种优化既解决了版本兼容性问题，又能显著减小模型体积，提高推理效率，特别适用于需要部署精简模型的生产环境。

2026-05-28 15:02:24 89

原创 YOLOv8 + KCF + 直方图置信度评估的混合追踪系统

本文提出了一种融合YOLOv8目标检测、KCF跟踪和颜色直方图验证的混合视觉追踪系统。该系统采用三级架构：YOLOv8负责初始检测和目标重定位（稀疏执行），KCF实现帧间快速跟踪（密集执行），颜色直方图通过巴氏距离评估跟踪置信度。当置信度低于阈值时触发重新检测，有效解决了传统跟踪器漂移问题。实验表明，该方法在保持实时性的同时（56 FPS），显著提升了长期跟踪的鲁棒性，为计算资源受限场景下的目标追踪提供了高效解决方案。

2026-05-22 17:40:28 342

原创 ArUco码无人机视觉降落：低成本高精度的现实解法与局限性

摘要：ArUco码作为一种低成本视觉标记系统，在无人机精密降落领域展现出独特优势。其通过黑白边框和二进制编码实现厘米级定位，解决了GPS在低空环境下的精度问题。优势包括硬件成本低、部署灵活、抗干扰性强及计算负载小。但存在远距离识别率低（6米高度成功率仅33.33%）、有效距离短（约16米）、受光照影响大等局限。实际应用中常采用多传感器融合、深度学习辅助和多标记冗余等改进方案，使其成为中低空末段降落的理想选择，特别适用于预算有限的农业对接和室内降落场景。

2026-05-21 16:59:43 282

原创基于YOLOv8与OpenCV的KCF跟踪算法实践

本文提出了一种结合YOLOv8目标检测与KCF跟踪算法的高效视频分析系统。该系统采用"稀疏检测+密集跟踪"策略，通过YOLOv8定期检测目标并初始化KCF跟踪器，在中间帧使用轻量级的KCF算法持续跟踪，显著降低了计算开销。文章详细介绍了系统架构、核心代码实现（包括检测间隔控制、跟踪失败处理等）以及典型应用场景（如交通监控、体育分析等）。这种混合方法在保证精度的同时大幅提升处理速度，特别适合边缘计算设备上的实时视频分析任务。

2026-05-21 16:56:50 403

原创为什么30-40岁过得最快？一位过来人的真实感悟

你每天走同样的路上下班，大脑就会觉得“这条路没什么新鲜的，不用仔细记”。结果就是，一周过去了，你回想起来，好像什么也没发生。30-40岁，确实是人生最忙碌的十年，但不一定非要是“消失得最快”的十年。前几天和朋友聊天，他突然感慨：“感觉30岁生日还是昨天的事，一转眼都快40了。学一门新技能，走一条没走过的路，去一个陌生的地方旅行。刷短视频、看无聊的综艺，这些被动消费时间的事情，做完之后你会发现大脑一片空白，什么都没留下。一个5岁的孩子，一年是他整个人生的五分之一。社会时钟是别人的，人生是你自己的。

2026-05-06 18:12:49 159

原创从“封神”到退潮：OpenClaw为什么不火了？

这场“龙虾热”的快速退潮，也许提示了一个更广泛的规律：当一个从开发者土壤里长出来的项目，被过早推到大众目光之下，它所引发的不只是热潮，还有被放大的短板和错位的预期。设计场景与使用场景的错配，最终形成了一台且用且贵、且贵且卡的双向推磨机器：普通用户既没有开发者那样按天接力的连续需求，也没有企业级预算来覆盖后台高频轮询的算力开销，因此用起来既心疼账单，又替那台无事可做的“龙虾”感到无聊。把一套专门为聊天用户设计的平价订阅，当作后台自动机的低成本燃料，这种“用爱发电”的模式从一开始就不可持续。

2026-04-30 16:25:02 269

原创边缘芯片上的抉择：CNN 与 Transformer 的图像识别之战

摘要：本文对比了CNN与Transformer在边缘计算场景下的优劣。CNN在小数据量和瑞芯微(RK3588/RV1126)芯片上部署优势明显，算子支持成熟，推理延迟可低至6-10ms；而Transformer虽在全局建模能力突出，但边缘部署存在算子支持不足（需RKNN-Toolkit2 v2.3+）、调试复杂度高等问题。建议根据数据规模选择：小数据选CNN，大数据云端用Transformer，边缘端优先考虑ConvNeXt等混合架构。部署时需注意版本兼容性，并参考rknn_model_zoo中的成功案例

2026-04-30 16:12:48 214

原创无人机自动安全降落：单目深度估计+语义分割的巧妙配合

摘要：本文提出一种基于单目深度估计和语义分割的无人机自主降落方案，通过两种技术的优势互补解决地形平坦度判断和小物体避障问题。深度估计检测地面起伏，语义分割识别障碍物，两者融合后评估最优降落点。该方案在实测中达到92%平坦区域识别准确率，45ms单帧处理速度，仅需普通摄像头即可实现。文章详细介绍了算法流程、工程优化及未来改进方向，为低成本无人机自主降落提供了实用解决方案。

2026-04-29 09:27:44 295

原创 RK3588部署depth_anything_v2性能分析

摘要：RK3588部署Depth Anything V2模型时，发现FP32模型(66M)比INT8量化模型(33M)运行更快，推测是RK芯片对exSDPAttention算子支持不佳所致。性能分析显示，exSDPAttention和Resize算子耗时占比高达76%（exSDPAttention占62.67%，Resize占13.63%），其中Resize算子部分运行在NPU、部分在CPU上，原因不明。512x512图像处理总耗时约900ms，主要瓶颈在于注意力机制和图像缩放操作。其他算子如ConvAdd

2026-04-28 14:29:50 94

原创 yolov11s目标检测转rk3588量化模型与测试

import cv2import numpy as npimport osfrom rknn.api import RKNNONNX_MODEL = “yolo11vs.onnx” # 输入的 ONNX 模型路径（80类）RKNN_MODEL = “yolo11vs.rknn” # 输出的 RKNN 模型路径IMG_SIZE = 640 # 模型输入尺寸CONF_THRES = 0.5

2026-04-28 09:40:30 334

原创关于YOLOV11系列在RK3588部署置信度为0的问题

摘要：将YOLOv11模型从ONNX转为量化RKNN模型时，目标框/关键点置信度会出现0或错误值的问题。原因是量化后sigmoid函数输出异常。解决方案：1）改用FP16模式（最简单）；2）坚持使用INT8时，需从RKNN模型输出sigmoid前的数值，在外部处理后再拼接（较复杂但已有实现代码）。两种方法均可解决量化后的sigmoid输出异常问题。

2026-04-24 10:20:16 51

原创重新认识大模型：孩子的脑容量和做题，比我想象的更重要

本文反思了教育中"刷题"与"脑容量"的关系，借鉴大模型训练原理提出新见解。文章指出：1）"参数量"（脑容量）确实存在个体差异，但可以通过优化知识结构和思维模型来弥补；2）适量"训练"（做题）对知识内化不可或缺，关键在于高效训练策略；3）当前教育问题在于算力分配不当，提出要评估孩子认知特点、选择适当难度题目、注重知识迁移能力。作者最终强调，既要重视基础能力培养，也要优化训练方法，二者结合才能实现有效学习。

2026-04-22 10:47:16 114

原创 YOLO目标检测+VLM，可以实现怎么样的新范式？

YOLO与VLM融合：计算机视觉的新范式 YOLO系列模型凭借高速检测能力成为实时目标检测标准，但存在语义理解不足的局限。视觉语言模型(VLM)的兴起为YOLO带来新的可能性，两者融合形成了五种创新范式：1)协同架构实现"又快又准"的系统设计；2)VLM赋能低成本数据标注；3)开放词汇检测实现零样本泛化；4)工业质检从缺陷检测升级为缺陷理解；5)边缘智能实现端侧部署突破。

2026-04-22 10:07:30 275

原创有一天3B的模型可以达到目前720B的效果？

《小模型能否超越大模型？3B参数挑战720B性能的可能性》摘要：随着MoE架构、测试时计算等技术突破，3B参数模型性能正快速逼近大模型。Phi-3（3.8B）已达LLaMA 2（70B）水平，显示2年效率提升20倍。实现3B→720B跨越需多维度创新：1）数据质量革命，采用合成数据与课程学习；2）架构革新，如MoE稀疏激活与线性注意力；3）推理优化，通过思维树等方法用计算换性能。理论瓶颈在于知识存储极限，但若接受"性能等价"而非"知识复制"，2030年后或见转机。核

2026-04-21 16:21:15 255

原创从语义分割图到安全降落区：一种自动选择无人机着陆点的实用方法

本文提出了一种基于语义分割图的无人机自动降落区域选择算法。该方法首先将语义分割图二值化为可降落/不可降落区域，通过形态学操作去除噪声；然后采用腐蚀算法从大到小搜索可能的安全降落半径，在每个半径层级筛选满足条件的圆心候选；最后根据与图像中心的距离进行贪心排序，选出最优的一个或多个互不重叠的降落点。算法实现了从语义理解到几何决策的转化，具有计算高效、易于嵌入实时系统的特点，可应用于无人机自主降落、机器人回收等场景。实验表明，该方法在640×480分辨率图像上的处理时间仅需15ms，能满足实时性要求。

2026-04-21 15:20:03 274

原创 3B左右的大模型真的有用吗？——深度分析3B级别大语言模型的使用价值

3B级小模型正成为AI应用的新趋势。研究表明，3B模型在性能上已接近GPT-3.5水平，经优化后可在手机等移动设备上流畅运行，内存占用仅2-3GB。相比大模型，3B模型在成本、功耗和响应速度方面优势显著，特别适合端侧AI、工业边缘计算等场景。虽然复杂推理和长文本处理仍是短板，但通过知识蒸馏、RAG等技术可显著提升性能。随着手机厂商纷纷转向3B方案，这类小模型正成为平衡性能与效率的"黄金点"，为AI商业化落地提供了更经济实用的选择。

2026-04-20 17:51:29 258

原创语义分割与单目深度估计在无人机安全自动降落中的应用

无人机自主降落技术正迎来视觉智能突破。语义分割技术让无人机精准识别地面安全区域，准确率达90%以上；单目深度估计则赋予其精确测距能力，最新算法误差仅14.4厘米。二者协同作用使无人机仅需普通摄像头就能完成环境感知与空间推理，实现从"看见"到"理解"再到"降落"的全链路自主。尽管仍面临尺度一致性、动态场景适应等挑战，但这项技术正在推动无人机在物流、救援等领域的商业化落地，其130次测试零失误的成绩预示着广阔应用前景。随着视觉大模型的发展，低成本、高性

2026-04-20 17:46:39 232

原创无人机的大脑与小脑：机载计算机与飞控的连接方式与通信协议解析

本文系统梳理了无人机飞控与机载计算机的连接方式及通信协议。硬件连接包括：串口（最常用）、以太网（高性能）、USB（调试用）和CAN总线（工业级）；通信协议主要采用MAVLink（无人机标准协议）和ROS2/uXRCE-DDS（高性能）；开发工具推荐MAVROS（ROS生态）、MAVSDK（跨平台）和pymavlink（底层）。文章还提供了RK3588连接Pixhawk的实战示例，为无人机开发者提供了全面的通信解决方案。

2026-04-17 10:27:31 258

原创我只是爱上那一天的你

《那一天的你》以细腻笔触描绘了一场美丽的误会。歌词通过湖光岩边的初遇、海边追逐等场景，展现了一段单向悸动的青春往事。叙述者沉溺于对方阳光开朗的形象，将礼貌误认为心动信号，最终明白那不过是自己的一厢情愿。诗歌巧妙捕捉了青春里那种将短暂美好错认为永恒的心境，以"那天的风、那天的你"与"曾经的自己"作结，道出了成长必经的情感领悟。

2026-04-13 14:13:38 36

原创无人机应急降落算法一般思路

摘要：无人机应急迫降算法通过视觉感知实现自主安全降落。核心流程包括：1）利用轻量化语义分割网络（如YOLOv8-seg）实时识别地面类别；2）构建风险图评估行人、车辆等危险区域；3）结合深度信息分析地形平坦度；4）动态搜索最优落点并持续跟踪移动目标。该算法需在嵌入式设备（Jetson系列）上实现10Hz以上的实时处理，目前面临光照敏感、未知物体识别等挑战，未来将结合多模态传感器提升可靠性。

2026-04-10 17:50:21 349

原创基于阿里百炼大模型多伦对话流式输出代码

本文介绍了StreamingMultiTurnChat类，用于实现流式多轮对话功能。该类自动管理会话ID以保持上下文，支持流式输出。主要功能包括：1) 初始化时设置API密钥和应用ID；2) ask()方法发送问题并返回生成器，逐步输出回答内容；3) reset()方法重置会话。示例展示了三轮上下文对话演示，最后通过重置会话验证了上下文清除功能。该类适用于需要持续对话且支持流式输出的应用场景。

2026-04-10 09:59:41 62

原创唤醒词模型 vs. 活动检测模型：语音交互的两道守门人

摘要：语音交互系统中，唤醒词模型（识别特定唤醒词）和活动检测模型（VAD，判断语音存在）是两大核心前置模块。唤醒词模型专注低功耗实时监听，仅响应预设词汇（如“Hey Siri”），而VAD通过声学特征区分语音与噪声，辅助确定语音起止。两者协作形成级联流程：唤醒词触发后，VAD标记命令边界以提升识别效率。关键差异在于，唤醒词模型依赖语义匹配，VAD仅作二分类；实际部署需平衡功耗与响应，如低端设备采用串行门控策略，高端设备可并行运行。开发者需针对场景优化误唤醒抑制和鲁棒性，确保用户体验。

2026-04-09 15:47:46 195

原创大模型的“直觉”与“深思”：揭秘直接输出与Thinking模式的原理与区别

未来的大模型将不再是“非此即彼”，而是能够根据情境灵活调用不同能力，做到该快则快，该深则深。作为使用者，理解这两种模式能帮助你更好地与AI协作：简单问题直接问，复杂问题引导它“想一想”。整个过程没有显式的推理环节，就像人类看到“1+1=”脱口而出“2”一样，是模式匹配的结果。所谓“自回归”，就是根据已生成的文本，预测下一个最可能的词。可干预思考：用户可以与模型的思考过程交互，例如：“等一下，你第二步推导有误，应该是…多模态思考：对于图像、视频等输入，模型不仅能“看”，还能“想”——描述推理过程。

2026-04-09 15:43:37 234

原创基于OpenClaw实现跑马灯

摘要：本文探讨了AI智能体框架OpenClaw在嵌入式开发中的应用，以跑马灯为例展示了如何通过OpenClaw控制树莓派GPIO引脚实现LED流水灯效果。文章详细介绍了硬件准备、软件环境配置、OpenClaw的三层解耦架构和Skills机制，并提供了完整的Python脚本和Skill编写指南。此外，还介绍了进阶扩展方法和常见问题解决方案，展现了OpenClaw如何简化嵌入式开发流程，使开发者可以通过自然语言指令完成硬件控制任务。

2026-04-07 13:51:58 450

原创万字长文解读：OpenClaw究竟是真革命，还是被过度神化的“编程新宠”？

而OpenClaw的实践案例显示，开发者仅通过口述需求，就让OpenClaw自动拉取代码、分析Bug、编写修复代码、启动测试服务器，全程零代码操作，甚至能直接提交PR，将修Bug时间压缩至“几分钟”。但Agent需要培训——你需要跟它多对话，告诉它你的偏好，让它了解你的工作场景，一起踩坑然后把经验固化下来。从性价比角度看，一份2026年的AI编程工具对比报告指出：OpenClaw为小团队提供了最佳的性价比（约$15/用户/月），任务自动化效率达75%，开源可扩展的特性使其ROI是专有替代品的2倍。

2026-04-07 11:39:55 216

原创别再被OpenCV摄像头缓存坑了！手把手教你获取“此时此刻”的画面

本文深入分析了OpenCV摄像头延迟问题的根源——内部帧缓存机制，并提供了两种实用解决方案。文章首先解释了不同操作系统下摄像头缓冲区的默认大小差异，指出单纯设置缓冲区大小可能无效。随后提出两种可靠方法：一是尝试强制设置缓冲区为1帧（依赖驱动支持），二是通过循环读取丢弃旧帧确保获取最新画面。文中给出了完整的代码实现，包括初始化摄像头、清空缓冲区以及实时处理帧的示例。最后比较了不同方法的适用场景，强调对于耗时AI任务应采用多线程方案实现最低延迟。这些方法能有效解决实时图像处理中的画面延迟问题。

2026-04-03 16:10:41 297

原创深度剖析 RK3588：系统休眠唤醒机制与驱动适配全攻略

摘要：RK3588是一款采用8nm工艺的高性能SoC芯片，支持多种休眠模式以优化功耗管理。其休眠机制通过设备树配置实现，包括电源域关闭、模块IP断电等操作，并支持多种唤醒源。驱动层面需通过dev_pm_ops实现电源管理回调函数，正确处理电源、时钟和状态恢复。常见问题包括RK806 PMIC二次休眠异常和网络设备唤醒失败，需针对性调整硬件配置和驱动初始化流程。合理配置休眠唤醒机制对嵌入式设备的功耗优化至关重要。

2026-04-03 09:06:00 283

原创打破正方形枷锁：YOLOv11 长方形输入的正确打开方式

摘要：YOLOv11在长方形图像输入支持方面存在训练与推理的不对称性。训练阶段必须使用正方形输入（如640x640），但可通过rect=True参数优化填充；推理阶段则完全支持任意长方形尺寸（需为32的倍数）。对于特殊场景（航拍/工业质检），建议采用数据预处理裁剪、OBB旋转框模型或源码修改等方案。性能测试表明，合理使用长方形输入可在保持精度的同时提升20%-40%效率。开发者应根据实际需求选择正方形训练+长方形推理，或直接采用OBB模型实现端到端的长方形支持。

2026-04-01 16:23:01 245

原创 OpenCV DNN 实战：PFLD 实现疲劳检测

本文介绍了一种基于PFLD模型的疲劳驾驶检测系统。该系统利用OpenCV DNN模块加载轻量级PFLD模型（仅2.1MB），通过检测人脸关键点实现疲劳状态分析。系统主要监测三个特征：眼部特征（通过EAR值判断眨眼频率）、嘴部特征（通过MAR值检测打哈欠）和头部姿态（通过欧拉角识别点头动作），采用多特征融合策略提高识别准确率。文章详细阐述了环境配置、模型加载、关键点检测算法实现，以及疲劳状态判定的核心逻辑，包括PERCLOS算法判断闭眼占比和连续哈欠检测。该系统具有轻量、快速（在ARM设备可达140fps）和

2026-04-01 09:01:36 324

原创 OpenCV 深拷贝与浅拷贝：Mat 背后的数据共享机制

OpenCV中Mat对象的深拷贝与浅拷贝机制解析：Mat类由头部(存储元信息)和数据指针组成。浅拷贝(如赋值或拷贝构造)只复制头部，共享数据内存，修改任一对象会影响所有共享对象；深拷贝(如clone()或copyTo())会复制完整数据，生成独立对象。ROI操作本质也是浅拷贝。函数参数默认传递浅拷贝，需注意修改影响。引用计数机制自动管理内存释放。实际开发中应根据需求选择：需要独立操作时用深拷贝，仅读取时用浅拷贝以提升性能，注意ROI连续性问题。合理运用两种拷贝方式能有效避免数据共享导致的bug并优化性能。

2026-03-31 09:34:40 125

原创 OpenCV DNN 实战：用 YOLOv11 实现高性能语义分割与关键点检测

本文介绍了一种基于OpenCV DNN模块部署YOLOv11模型的工业视觉解决方案。针对工业环境中Python依赖重、环境适配难等问题，该方案具有零额外依赖、跨语言支持(C++/Python/C#)和硬件加速(CUDA/OpenVINO)等优势。文章详细讲解了语义分割模型的部署流程，包括预处理(letterbox处理)、推理和后处理(边界框解析和掩码解码)。通过实测数据表明，该方案在640×640分辨率下推理延迟可低至3.2ms，显著优于Python原生推理，为工业视觉项目提供了一种高效可靠的部署方案。

2026-03-31 09:31:17 171

原创别再随便切了！你的知识库切片方式直接决定了RAG系统的生死

摘要：本文深入探讨了知识库切片策略对检索增强生成(RAG)系统性能的关键影响。通过实战案例对比，展示了不同切片方式(固定大小、语义、递归、结构化)在召回率、回答准确性和连贯性上的显著差异。研究发现，不当切片会导致82%准确率下降，而优化后的混合策略(结合语义和结构化切片)能显著提升效果。文章提出了保留元数据、动态调整和持续评估等最佳实践，强调切片质量是RAG系统的基础性决策，直接影响大模型输出的可靠性。

2026-03-30 09:58:40 312

原创 RK3588安装OpenClaw遇到的坑：从“翻车”到“真香”的血泪史

配置飞书插件时，另一个坑是权限：飞书应用需要开启“机器人”和“接收消息”权限，并且订阅事件 im.message.receive_v1。RK3588开发板很多只有4GB内存，而 npm install 编译某些模块时，内存占用会飙到3.5GB，结果被OOM Killer杀掉。如果用官方安装脚本，它会从 https://openclaw.ai 下载一些资源，也需要代理。结果，我从“跃跃欲试”到“怀疑人生”，再到“终于搞定”，整整折腾了三天。妥协方案：先用云端API，反正数据可以走内网，速度也不慢。

2026-03-30 09:50:59 229

原创 OpenVINO 实战：用 YOLOv11 实现高性能目标检测

本文详细介绍了如何将YOLOv11模型通过OpenVINO工具包部署到Intel硬件平台。主要内容包括：首先通过Ultralytics API将YOLOv11模型导出为OpenVINO格式；其次提供Python和C++两种实现方案，展示如何使用OpenVINO Runtime进行推理；最后介绍性能优化方法如INT8量化。OpenVINO部署可实现3倍以上的推理加速，支持CPU、GPU和NPU等多种硬件，无需重新训练模型。该方案特别适合边缘计算场景，能显著提升YOLOv11在低功耗设备上的运行效率。

2026-03-27 09:42:01 252

空空如也

空空如也