标题1 工业场景与自然场景对比如下:
特性 | 自然场景 | 工业场景 |
---|---|---|
尺度 | 变化大 | 变化小 |
遮挡 | 有遮挡 | 无遮挡 |
形态 | 变化大 | 变化小 |
类别 | 类别多 | 类别少 |
光照 | 不稳定 | 稳定 |
干扰 | 干扰大 | 干扰小 |
自然场景一般是强语义信息,缺陷检测一般为弱语义信息,缺陷检测一般运用局部区域就可以判别。 |
标题2 缺陷归纳
做好缺陷的归类,才容易下手。这里给出三种归纳方法:
归纳一:
纹理缺陷:替代原始样本纹路表现,位置、大小、形态不固定;划痕、脏污等;
结构缺陷:与目标结构有关,其位置、形态较固定,可能不存在量化的概念(错漏反);
其他缺陷:例如医学图像、一些红外热成像、超声波成像等,可能无法靠肉眼建立精准的对应关系
综合以上
归纳二(站在正常样本建模的角度):
纹理(一般指重复的结构,可能存在颗粒比较大的纹理)
非纹理对齐:与结构相关,但是可以做到对齐
非纹理无法对齐:与结构无关,但是很难对齐
综合以上
归纳三(形态上):
加法:脏污、异物、附着、
减法:残缺、划痕、破损
替换:混色、异色、杂质、混淆
变形:扭曲、尺寸、褶皱
标题3 可行性分析
明显:缺陷清晰可见,肉眼容易辨别,同时也是对光学成像提出要求;
明确:缺陷标准定义明确,没有争议,是对需求进行筛选;
标题4 数据难点
难分、多样性、不平衡、数据脏。
(1)数据难分:易分样本(也就是明显缺陷和明显不是缺陷)不能出错;漏检和误检达到平衡;
(2)多样性不够:难以收集到全部形态的缺陷样本,基于“缺陷描述”,结合正常样本学习和数据生成的方法来降低“多样性不够”的影响;
(3)样本不平衡:样本级别不平衡,大量正常样本,NG样本占比较小;缺陷占整体较小,导致耗时、难控制误检;类别上不平衡,某一类缺陷占比较大,有些占比极小,基于大量样本可以解决。
标题5 数据脏
数据脏就是标注的时候把标注类别搞错。脏数据会对网络训练带来不利的影响,强行训练会有过拟合的风险。因为网络提取通用特征,拟合不到缺陷只能去拟合其他噪声了。
数据脏还比较好办,归根到底是数据标注的问题。
全网最全的工业表面缺陷检测数据集及论文鸡 开源项目:https://github.com/Charmve/Surface-Defect-Detection/
学习自知乎皮特潘,在此整理!!!
https://zhuanlan.zhihu.com/p/375828501