腾讯TEG视觉算法团队负责人肖万鹏:看图说话—从算法角度理解图像内容

10月28日FMI 2018人工智能与大数据高峰论坛深圳场圆满落幕,腾讯TEG视觉算法团队负责人肖万鹏以从算法角度理解图像内容为主题进行了精彩的分享。

 

腾讯TEG 视觉算法团队负责人肖万鹏

 

以下是肖万鹏演讲内容,飞马网根据现场速记进行了不改变原意的编辑(有删减):

 

肖万鹏:非常感谢主持人,我今天分享的内容是《看图说话——从算法角度理解图像内容》,分三块:一是图像内容的理解角度。二是图像描述算法的发展和优化。三是看后续的发展方向是什么。

 

 

01

 

第一部分:图像内容的理解角度

 

 

从人的角度理解这个图,你们觉得怎么描述或者它的内容应该怎么总结出来?

 

从算法的角度,最简单的是基于分类算法,比如给出图片的定义,是机场的场景,机场场景的含义,取决于你做分类算法的时候标签怎么设定的。基于实体检测的算法,它会告诉你图像里面有男人、女人、飞机,这两个算法是现在比较常见的,都是基于标签的。这种基于分类、多标签的方式,它的弊端是只能识别出实体是什么或者场景是什么,但是他把实体之间的信息,人与人的行为这些信息损失了。但是在我们现在的场景,其实对于图片语义理解的需求越来越旺盛,所以因为这些需求,基于图像描述的算法就应运而生。如果用这种算法看,对图片的描述是停在机场的飞机前有一个男人和女人,相对前面两个基于标签的算法多了很多实体关系和行为信息。这三种方法我们再抽象出来,分类算法是“是什么“,实体检测是“有什么”,图像描述算法就是“干什么”。从语义级别是由低到高的过程。接下来我们的内容会基于第三块内容,图像描述算法,从框架和算法的技术点来看怎么做的,有什么优势和缺点。

 

 

02

 

第二部分:图像描述算法的发展以及优化

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值