观点总结:
1、深度学习的三大局限:1)需要海量样本数据;2)标准测试集外难以取得好的效果;3)对数据微小变化过于敏感。
2和3均可以认为是1中样本“不够”导致的结果,即有限数据集。但对应现实场景,样本永远都是不够的,因为现实场景中不同元素会出现无数种组合的可能,这些元素形成的背景均会对主体形成影响。例如,在早期数据集中,长颈鹿仅在树木边出现,因此,如果长颈鹿附近如果没有树,那神经网络就无法正确识别,即使它们是图片中最主要的对象主体。
2、上述三个局限均来源于一个深度学习的关键能力缺失:无法有效应对“组合爆炸”问题。而真实世界的图像都是组合的。
3、这导致某些背景和主体相互关系比较稳定的场景,深度学习会有较好的效果,比如医疗影像,器官相对位置总是固定的。而不符合这个条件的场景,则很难达到最好效果,这阻碍了深度学习在一些领域的应用,比如自动驾驶。
4、婴儿学习是基于有限的数据集推倒因果关系,并将这些因果关系服用到其它领域,而忽略不必要的细节。基于组合模型的视觉识别更像这种方式,即识别基本的各类因果图形模型,并学习这些模型如何生成图像。
5、因此,仅仅利用现有的深度神经网络来处理视觉图像是不够的,需要基于组合模型思路来了解图形中的基础结构的复合原理和因果关系,这是未来视觉机器学习的一个重要完善方向。
深度学习在机器视觉应用中的局限:复杂场景下难以有效拆分组合
最新推荐文章于 2023-02-26 21:23:57 发布