头帕王子-CSDN博客

原创工业视觉踩坑实录(二十二):做了SOP行为检测,我才发现detection是入场券,SOP才是定价权

回头看5月份那单,我真正低估的不是检测难度,是客户买单逻辑本身。我当时卖的是「看见问题的能力」,但客户要的是「判断问题的能力」。这两者之间,不是优化空间,是定价模型的差异。这一单对我自己的冲击在于,我以为自己在交付detection能力,客户其实是在评估我能不能交付流程合规能力。我没能在报价阶段把这个错位讲清楚,所以走了detection清单的路子。现在我能理解到的教训是。model精度是入场券,它决定你能不能进场;SOP判断框架是定价权,它决定你能不能拿到溢价。

2026-06-25 11:31:23 211

原创工业视觉踩坑实录（二十一）：15%的垃圾帧差点毁了验收，图像质量评估救了我的命

本文分享一个煤矿井下监测项目中，15%~20%的视频帧因断线、花屏、粉尘遮挡、光照不足等原因质量严重不达标，直接喂给检测算法导致准确率暴跌。作者从最原始的OpenCV手动算指标，到pyiqa统一工具箱，完整拆解了图像质量评估在工业场景中的落地实践——包括亮度/对比度/清晰度/噪点的传统方案坑点，BRISQUE/NIQE等NR-IQA方法的适用范围与局限性，CLIP-IQA与工业检测准确率的相关性问题，以及在恶劣环境下如何把画面质量变成设备健康监控的报警信号。

2026-06-09 15:24:36 357

原创耍中找钱，找钱来耍：一个成都老头教会我的创业哲学

最近同时推进几个项目，有人问我累不累。说实话，有时候也累。但如果每天研究的是自己喜欢的东西，累和消耗是不一样的。希望几年以后回头看，我还能保持现在这种对工业AI的好奇心。赚钱很重要。但能一直觉得这件事好玩，更重要。

2026-06-08 14:10:22 282

原创为什么SaaS公司估值百亿，我的视觉项目只能赚几万

做工业视觉十年了，最大的感受是这行不浪漫。没有一夜暴富的故事，没有指数级增长的曲线，没有投资人排队给你送钱。有的是一个个具体的工厂、一个个具体的客户、一个个需要你在现场蹲两天解决的问题。估值百亿的SaaS公司和赚几万的视觉项目，听起来差了十万八千里。但如果你看底层，其实都是在解决问题。区别只是解决问题的场景不同、方式不同、变现路径不同。我不焦虑，是因为我看到了一个东西，那些SaaS公司看不到的东西。我见过凌晨啸叫的报警灯，见过工人用镊子一个一个检查零件，见过因为漏检导致整批退货的老板蹲在墙角抽烟。

2026-06-08 14:07:59 457

原创工业视觉踩坑实录（二十）：缺陷样本只有50张？小样本检测的技术全景和真实落地坑

当缺陷样本只有50张甚至更少时，传统视觉、有监督深度学习、GAN合成三条老路各有死穴。2026年技术路线全面更新：Dinomaly2以8张/类正常图达到99.9% multi-class SOTA，AnomalyDINO仍是1-shot工程首选，FoundAD（ICLR 2026）打开基础模型新范式，合成数据路线（MvP-Diff、AnomalyPainter）从「帮倒忙」进化到「真能帮忙」。但最关键的数字始终不变——论文精度到真实工厂，普遍打七到八折。

2026-05-29 15:49:10 556

原创工厂上AI视觉系统前，先回答这3个问题（否则20万可能白花）

我见过不少工厂老板，花二三十万上了AI视觉系统。验收那天准确率98%，一个月后设备吃灰，最后又把质检员请了回来。不是技术不行，而是一开始就不该上。先说结论。你的工厂适不适合上AI视觉系统，判断其实很简单——：先别上，把钱花在更紧迫的地方。：继续往下看。：值得认真评估，但别急着采购设备，先把后面几个坑看完。

2026-05-29 13:16:44 435

原创工业视觉踩坑实录（十九）：7个被问爆的SOP检测问题，我把坑都替你踩了

实验室里的方案，到了工厂现场就会变形。状态机在Demo里跑得很漂亮，上了产线就发现并行操作处理不了。YOLO在测试集上精度很高，到了现场就发现两个相似动作分不开。一个摄像头拍多个工位省了几百块钱，结果调试成本多花了好几天。这些坑，模型再强也绕不过去。因为它不是算法问题，是工程问题。别在实验室里追求完美方案。先用最简单的架构跑通流程（状态机+单工位+物理隔离），到了现场碰壁了，再根据你的具体痛点选择升级方向。状态机能跑通就先用状态机，留好扩展接口，后面换成事件驱动的时候改动最小。

2026-05-21 14:16:44 497

原创工业视觉检测入门工具清单2026版

第一，工具一体化不可逆。Ultralytics和Roboflow都在建一站式平台。但工业场景的多样性决定了没有一家能覆盖所有需求，组合拳仍将是主流。第二，开源已经够强了。10年前做视觉检测，HALCON几乎是唯一选择。现在开源方案（OpenCV + YOLO + SAM + ONNX）在AI检测场景已经追平甚至超越商业软件。独立开发者和小团队的机会窗口从未这么大。第三，真正的壁垒不在工具，在数据+场景。"实验室98%精度，产线只有75%精度"是行业常态。通用工具越来越强，但每个工厂的光照、产品、节拍都不同。

2026-05-16 23:16:27 508 1

原创工业视觉踩坑实录（十八）：调个ZXing就能跑？工业级条码分分钟教你做人

我接触视觉整整。机器视觉、烟草、煤矿等行业都有深度开发经验。从硬件选型、算法开发、模型训练，到上位机开发及部署，都在。之前是多家公司人工智能团队的技术负责人。现在自己创业了，还在继续做视觉落地这件事。

2026-05-13 15:26:05 397

原创工业视觉踩坑实录（十七）：从40分到高分：工业零件OCR，通用模型一上来就给我打脸

工业零件OCR识别面临独特挑战：通用OCR模型直接应用于金属零件文字识别时准确率仅40%，远低于文档OCR效果。主要问题在于工业文字的特殊性——钢印、激光打标等工艺导致字符变形、对比度低，金属反光和表面纹理造成干扰，文字常呈不规则角度排列。有效解决方案需分三步：1)采用旋转框检测(YOLO OBB)精确定位任意角度文字；2)对裁剪出的文字区域进行仿射变换校正；3)使用专用识别模型处理校正后的文字。该方案克服了通用OCR在复杂工业场景下的局限性，通过针对性优化显著提升了识别准确率。

2026-05-08 13:24:55 449 1

原创工业视觉踩坑实录（十六）：读个指针表，我差点以为计算机视觉是假的

指针表读数的坑，按优先级排是这样的：第一，任务定义要清楚。不是检测指针角度，是检测指针角度加上正确的物理量映射。两步缺一不可。第二，现场条件比算法性能更关键。反光、灰尘、水汽、玻璃材质，这些物理层的问题不解决，再好的算法也是白搭。第三，模板匹配和Hough变换都不是指针检测的银弹。根据你的实际场景选择合适的方法，差分法思路好但基准图获取是个难题，多帧中值法是变通手段但前提条件苛刻。第四，从指针检测过渡到OCR，不是功能升级，是两个完全不同的技术栈。不要假设同一套预处理参数能同时服务两个任务。

2026-05-07 14:16:33 464

原创工业视觉踩坑实录（十五）：用第一性原理和最优错误率重新理解工业视觉项目

这篇文章跟之前的踩坑实录不太一样。之前聊的更多是具体的技术问题，这篇聊的是思考框架。但我觉得这个框架比任何一个具体技术都重要。技术选错了，换一个就行。但框架错了，你会一直在错的方向上努力，越努力越亏。第一性原理五步法帮我做减法，最优错误率帮我判断上限。先用最优错误率判断这个项目能不能做、做到什么程度再用五步法判断应该做什么、不做什么、怎么做更快做工业视觉这行，最值钱的不是你会多少算法，而是你知道拿到一个问题，先想什么、后想什么。

2026-05-03 19:37:25 428

原创工业视觉踩坑实录（十四）：客户发来一个15秒的抖动模糊视频问“能不能做“，我该怎么判断？

这一篇跟前面的踩坑实录不太一样。前面聊的都是技术问题，这篇聊的是"接不接项目"的判断。但我觉得这个更重要。因为一个错误判断的成本，远比一个技术bug高。接了一个不该接的项目，你会亏钱、亏时间、亏口碑。不接一个该接的项目，最多少赚一笔。知道自己不能做什么，比知道自己能做什么更值钱。如果你也在做类似的事情，希望这份清单能帮你少接几个坑。

2026-04-30 14:12:54 421

原创工业视觉踩坑实录（十三）：SOP系列之二，“你们这是帮我们，还是监视我们？”

《工业视觉SOP行为检测的实践与思考》摘要：作者基于10年工业视觉经验，分享了SOP行为检测系统开发中的技术挑战与非技术难题。技术层面，传统状态机架构难以处理模糊动作边界、并行操作和复杂分支流程，需转向事件驱动和时序动作分割模型。更棘手的是系统定位问题——工人质疑"这是帮助还是监视"，促使产品从"监控者"转向"数字教练"。作者提出未来方向：建立基线模型反映实际工作模式，开发具备自动修正能力的智能系统，而非简单报警。工业视觉落地的核心在于技术与人文的

2026-04-27 13:24:12 720

原创工业视觉踩坑实录（十二）：加了假人训练数据，检测模型还是分不清真假人

一个教室，四五十个学生，地上躺着4个假人模特。检测模型全报了，系统一直误报有人躺着。回去加了假人照片做负样本训练，换个新款假人照样误检。试了多模态大模型能分，但四五十个人全送大模型推理，根本跑不动。这篇聊聊为什么检测模型分不了假人，以及为什么大小模型级联这个思路能工作。

2026-04-24 14:32:20 500

原创为什么“聪明”的工程师，反而做不好项目？

《为什么"聪明"的工程师做不好项目？》探讨了技术人才在项目中的思维局限问题。文章指出，许多技术专家虽然专业能力强，却常陷入"一维思考"陷阱——只从自身专业角度解决问题，而忽视其他维度。作者结合工业视觉领域十年经验，将思考能力分为五个维度：单一专业视角、多角度认知、跨领域整合、模式识别和时间维度考量。真正的项目高手需要突破专业身份认同的束缚，主动跨越认知边界，在技术、成本、客户需求等多维度间灵活切换。文章强调，过度防御和站队本能是阻碍工程师提升项目能力的关键，建议通过持

2026-04-22 23:11:33 376

原创工业视觉踩坑实录（十一）：数了三个月的螺栓，我经历了传统视觉到深度学习的完整技术周期

本文分享一个工业螺栓计数的真实项目，从传统机器视觉（形状匹配→模板匹配→分水岭分割）到深度学习检测的完整技术演进。作者详细拆解了图像反转、二值化、距离变换、分水岭算法、粒子分析等传统方案的全流程，对比了深度学习方法在精度和开发效率上的巨大优势。对理解传统视觉与深度学习的技术代差有直接参考价值。

2026-04-21 15:44:12 462

原创工业视觉踩坑实录（十）：拼出来的图变形了，尺寸测量全废——高精度拼接测量的那些坑

《工业视觉测量中的图像拼接变形问题》摘要：本文详细分析了高精度尺寸测量中图像拼接导致的变形问题。当被测零件(10cm圆形金属件)无法单帧拍摄时，采用九宫格拼接方案面临多重挑战：1)机械传动误差导致拼接错位(±0.05mm定位误差转化为3-4像素偏差)；2)特征匹配拼接会引入0.5%的尺寸变形误差；3)背光不均匀性影响边缘检测精度。作者通过改用伺服电机闭环控制、高精度标定板固定等方案，最终采用"标定板拼接"技术，将图像统一到物理坐标系而非通过特征匹配，成功消除拼接变形，实现微米级测量精度

2026-04-17 13:41:29 649

原创工业视觉踩坑实录（九）：调了三天算法没效果，最后发现是灯的问题

条烟品类检测，听起来就是拍张照片做分类。但条烟表面的BOPP覆膜是个噩梦——左右条形光打出两道高亮反光带，换成漫反射灯管反光变成散乱一片。调了三天预处理算法，最后靠偏振镜消反光才彻底搞定。这篇文章从条烟检测的真实经历出发，聊聊工业视觉里光源这个最容易被低估的环节。

2026-04-15 12:41:12 432

原创工业视觉踩坑实录（八）：一场足球赛，让全西班牙的开发者连 Docker 都拉不了——我在工厂部署时学到的基础设施教训

搞工业现场的兄弟们，基础设施这件事，怎么说呢，真的值得认真对待。不是说你一定要搞多复杂的方案，关键是意识到位——知道哪些环节可能出问题，提前准备好备选方案。像文章开头那个西班牙事件，如果你在CI/CD里配置了多个镜像源（比如官方Hub + 阿里云镜像 + 自己的私有仓库），至少其中一个挂了你还有别的选择。别等到半夜三点被电话叫醒，才想起来这件事。*本文所有代码均为示意，核心思路可复现，具体参数需根据实际场景调整。📎相关专栏工业视觉踩坑实录。

2026-04-14 14:54:42 382

原创那些刷榜第一的 AI Agent，为什么到了真实场景就不行了？

这篇CSDN博客揭露了当前AI Agent基准测试中存在的严重作弊问题。UC Berkeley研究发现，主流AI测试如SWE-bench等存在系统性漏洞，Agent可以通过修改测试环境、伪造结果等方式轻松获得高分。文章指出，这些作弊手法已在实际应用中悄然出现，导致基准分数严重失真。作者结合工业视觉检测经验，提出验证AI编程工具的五步法：使用真实项目、检查修改范围、长对话测试、跨文件重构验证和实际效率评估。最后建议将AI视为需要监督的"实习生"，而非完全信任的工程师，强调实际效能比基准分数

2026-04-13 21:30:56 469

原创工业视觉踩坑实录（七）：12个摄像头拼接做选矿厂全景监控，最后没做出来

工业全景监控项目失败复盘：12台8160×3616@24fps全景摄像机拼接选矿厂露天监控，因四大关键问题导致项目流产。首先，现场安装间距过大导致相邻相机重叠不足30%，无法特征匹配；其次，未进行多机位标定直接硬拼，造成画面错位；第三，12路3200万像素视频流远超算力与带宽极限；最后，露天环境光照剧烈变化导致色彩无法统一。核心教训：方案设计必须结合现场条件验证，安装规范与标定流程不可省略，超高分辨率需匹配足够算力。失败案例警示工业视觉项目需从物理安装到算法处理全链路严谨验证。

2026-04-13 14:16:07 558 1

原创别让你的OpenClaw失忆：我用三层记忆架构解决了上下文断裂问题

你有没有这种感觉：昨天和 AI 聊了一个技术方案，交代了背景、讨论了方向、达成了一个关键结论。今天再开一个新对话——“我们上次说到哪来着？AI Agent 每次对话都是从零开始。上下文窗口关闭的那一刻，所有结论都消失了。一个月后，你已经忘了当时想到了什么，AI 更不可能记得。这就是上下文断裂问题——AI Agent 最大的硬伤。我用了三个月，搭了一套三层记忆架构解决这个问题。不只是"让 AI 记住"，而是让记忆像代码一样有版本管理、有层次结构、有自动归档。

2026-04-08 09:45:53 429

原创 Karpathy LLM Wiki 实战落地：用 OpenClaw 多 Agent 做了三个关键升级

做技术的人，知识焦虑是常态。论文要看、方案要写、算法要调、客户要跟、政策要学。每件事都重要，但串起来就是一团乱麻。文件夹分类——建了一套"客户/技术/政策/产品"的目录，每次新笔记都面临灵魂拷问：这算技术还是产品？最后堆在"杂项"里吃灰。RAG——向量数据库 + Embedding API + LangChain，花了两周搭好，每次回答都是碎片拼凑，没有上下文，没有逻辑关联。更致命的是：RAG不积累知识，今天问完明天还是从零开始。

2026-04-08 09:17:21 1356

原创我用 OpenClaw 搭了一套多Agent对抗式开发流水线，一个需求2.5小时出可运行代码

作为工业视觉领域的工程师，白天跑客户、谈方案、做报价，晚上还要写算法、调模型、搭系统。一个完整产品从需求到可运行代码，传统方式少说一周。但一周对于冷启动阶段的一人公司来说，太奢侈了。上下文焦虑（任务一长就急着收工）和自我评价膨胀（写完永远说"完美通过"）。解法来自两个地方：Anthropic的一篇工程博客，和我从GAN（生成对抗网络）借来的一个思路。

2026-04-06 12:33:33 954

原创工业视觉踩坑实录（六）：SOP行为检测：用AI替你盯着工厂流水线

文章摘要 SOP行为检测：AI赋能工厂流水线监管工业场景中，标准作业程序(SOP)的执行依赖人工监督，存在监管成本高、覆盖率低等问题。本文介绍了一种基于AI视觉的SOP行为检测系统，通过摄像头实时监控工人操作流程，自动识别违规行为（如跳步、乱序、穿戴不规范等）。系统采用分层架构：人体检测→姿态估计→状态机判定→告警展示，相比端到端方案更具可解释性和适应性。关键技术包括ROI区域过滤、简单跟踪算法等优化手段。该方案已在汽车零部件厂落地，解决了传统人工巡检的痛点，实现7×24小时无间断监控，显著降低质量风险

2026-04-06 12:17:10 2850 5

原创工业视觉踩坑实录（五）：系统上线第二天就崩了，我才意识到边缘部署有多难

摘要：本文分享了工业视觉算法在边缘设备部署中的实战经验。作者从10年行业经验出发，指出边缘部署的稳定性挑战比算法开发更关键，并总结了常见问题：算力不足、内存泄漏和网络不稳定。文中详细介绍了设备选型（推荐Jetson Orin系列）、模型加速（量化、尺寸优化）、自适应抽帧策略和内存管理技巧，强调留足算力余量、动态调整检测频率和实现稳健的重连机制。这些来自真实项目的优化方案能显著提升边缘部署的可靠性。

2026-03-11 20:57:46 483

原创工业视觉踩坑实录（四）：YOLO准了也没用？我用“分层决策”把误检率从15%降到2%

摘要：工业场景中，多传感器融合的状态决策常面临单一模块正确但系统误判的问题。本文基于10年视觉开发经验，提出分层决策架构：按优先级（人员安全>环境异常>基础运动检测）逐层覆盖判断，并通过时间窗口投票和状态防抖机制平滑误检波动。核心代码实现了滑动窗口投票器和带时间间隔的状态切换，有效解决了工业现场的状态跳变问题。该方法已在YOLO+光流+粉尘检测+人员检测的多模块系统中验证，显著提升了系统稳定性。

2026-03-10 21:34:35 419

原创工业视觉踩坑实录（三）：工业视觉误检太多？我用4个工程技巧把误检率降到5%

摘要：工业场景下光流法误检过滤实战经验本文分享了工业视觉项目中光流法误检问题的解决方案。作者通过10年行业经验，总结出四种典型误检场景：局部干扰（如皮带晃动）、全局晃动（摄像头抖动）、光斑干扰和物料掉落。针对这些问题，提出了四项核心技术： DBSCAN聚类：通过密度聚类过滤零散误检点，保留大块运动区域全局运动补偿：用仿射变换估计并消除摄像头晃动带来的整体运动光斑点过滤：基于亮度阈值和形态学处理消除反光干扰时序一致性检查：通过多帧验证避免瞬时误报

2026-03-09 20:55:58 692

原创工业视觉踩坑实录（二）：工业粉尘检测踩坑3次后，我用“暗通道先验“搞定了

本文分享了工业粉尘检测的实战经验。作者在工厂异物检测项目中，发现传统YOLO模型受粉尘干扰严重失效，转而采用"暗通道先验"去雾算法来解决这一问题。文章详细解析了粉尘与雾霾的相似性，介绍了暗通道原理及其在粉尘检测中的应用，并提供了完整的Python实现代码。针对工业场景特有的光照变化、运动干扰和镜头脏污等问题，给出了实用的解决方案。该方案无需额外传感器，仅通过视觉算法即可实时检测粉尘浓度，在工业现场验证有效。文章还分享了算法落地过程中遇到的典型问题及应对策略，具有较高的实战参考价值。

2026-03-08 20:13:31 487

原创工业视觉踩坑实录（一）：工业现场运动检测太难？YOLO + 光流让我把误检率降了一半

本文探讨了工业场景下运动目标检测的工程化落地方案。作者结合10年行业经验，指出YOLO等算法在现场应用中面临光照变化、设备抖动等实际问题，提出将YOLO目标检测与LK光流法结合的解决方案。文章详细分析了光流法在工业场景中的四大挑战（光照变化、局部干扰、镜头晃动、计算资源），并给出区域过滤、聚类分析、运动补偿等应对策略。核心实现方案包括特征点检测、光流追踪、运动聚类和相机抖动补偿四个关键步骤，通过OpenCV代码示例展示了工程实现要点。该方案强调算法在边缘设备上的稳定运行，而非追求实验室环境下的高精度。

2026-03-08 13:40:24 621

原创【MOGE-2】手把手教你在AutoDL上部署MOGE-2

本文详细记录了在AutoDL云平台部署微软开源项目MoGe（单幅图像几何信息恢复模型）的全过程。主要包括环境配置（使用3090显卡基础镜像）、代码克隆与依赖安装（通过conda创建Python3.10环境）、模型下载（从Hugging Face获取不同版本预训练模型）以及服务部署（通过app.py实现可视化推理）。特别提供了AutoDL平台特有的学术加速设置和SSH远程访问技巧，最终成功实现包含深度图、法线图等几何信息的可视化输出，展示了该模型在多任务输出和低延迟推理方面的优势。

2025-09-29 11:11:49 1379

头帕王子的博客