笔记来源——
【工程数学基础】9_阈值如何选取??在机器视觉中应用正态分布和6-Sigma【这是一期不需要记笔记的轻松视频,简单的知识,重要的运用】
比如我们要识别我们的产品上面是否有保护膜,我们可以通过白色像素点的数量去判断
我们可以发现有膜的跟没膜的白色像素点的数量差距很大
这个时候我们的阈值应该选多少?应该怎么去判断它有多少个像素点的时候有无塑料膜包裹呢?
这时候我们就需要用到概率论的知识了,因为我们的膜覆盖在零件上是随机的,而相机本身的误差也是随机的,对于这些随机变量来讲,他的概率分布是符合正态分布的
在正态分布下,在一个标准差之间,涵盖了68.27%的样本
在三个标准差之间有99.73%的样本
比如我们的A城男子身高为例子 ,我们就可以做出大胆的预测了
99.73%的超高准确率,然而在工业上这个数据是远远不够的
这里引入我们六西格玛的概念,我们这里3西格玛的概率是93.3%,然而上面我们的是
99.73%,这是因为我们工业生产中发现,实际的数据跟我们前面数学的正态分布的概率有1.5的偏差,上面的这个表格所表现出来的是包含了经验的修正后的工业的数据的一个结果
为什么要到这么高呢?我们可以看两个例子
现在来看看我们如何把这个例子应用到我们前面机器视觉的例子当中
我们可以通过统计的数据求出来合格品的期望和方差,以及不合格品的期望和方差,把他们表达出来,找到6的位置,这里面会有两种情况,如果这里面这两个中心曲线不重合的话,我们的阈值就选在他们的中间就可以了 。大于它的就是合格品,小于它的就是不合格品
如果他们是重合的话那就有不同的选择了,比如我们把阈值设置在紫色线这里,设置在合格品的6以外,这样的话,系统就不会把任何一个好的零件认为是有瑕疵的,但是阴影部分不好的零件可能会被漏放过来,这被称之为FalseDismissal。
如果我们把阈值设在蓝线这里,我们就不会放过有瑕疵的零件了,但是在阴影部分合格的零件就会被误杀了,这种情况被称之为False Alarm(假警报)。
我们可以看到,合格产品的左边减去六个标准差,得出来的是539。不合格产品的右边加上六个标准差得到的是 1002,可以知道他们是重叠的。所以我们就知道我们宁愿错杀合格品也不能把不合格品放在用户那里。所以我们可以将阈值设置为1050,在不合格品的6之外。就可以保证不漏检了。
然后我又知道合格产品虽然在6以内,但却在5以外,因为5计算就等于1080,也就是说我们选了1050这个阈值,就有0.023% 的概率报假警
在实际生产中我们的数据会越来越多,方差跟期望值就会越来越准确,我们的阈值也会不断进行变化