深度学习在机器视觉应用中的局限:复杂场景下难以有效拆分组合

参考:https://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651667800&idx=1&sn=656a12076d3384a508c7c5ebdacde16b

观点总结:
1、深度学习的三大局限:1)需要海量样本数据;2)标准测试集外难以取得好的效果;3)对数据微小变化过于敏感。
2和3均可以认为是1中样本“不够”导致的结果,即有限数据集。但对应现实场景,样本永远都是不够的,因为现实场景中不同元素会出现无数种组合的可能,这些元素形成的背景均会对主体形成影响。例如,在早期数据集中,长颈鹿仅在树木边出现,因此,如果长颈鹿附近如果没有树,那神经网络就无法正确识别,即使它们是图片中最主要的对象主体。
2、上述三个局限均来源于一个深度学习的关键能力缺失:无法有效应对“组合爆炸”问题。而真实世界的图像都是组合的。
3、这导致某些背景和主体相互关系比较稳定的场景,深度学习会有较好的效果,比如医疗影像,器官相对位置总是固定的。而不符合这个条件的场景,则很难达到最好效果,这阻碍了深度学习在一些领域的应用,比如自动驾驶。
4、婴儿学习是基于有限的数据集推倒因果关系,并将这些因果关系服用到其它领域,而忽略不必要的细节。基于组合模型的视觉识别更像这种方式,即识别基本的各类因果图形模型,并学习这些模型如何生成图像。
5、因此,仅仅利用现有的深度神经网络来处理视觉图像是不够的,需要基于组合模型思路来了解图形中的基础结构的复合原理和因果关系,这是未来视觉机器学习的一个重要完善方向。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值