10月28日FMI 2018人工智能与大数据高峰论坛深圳场圆满落幕,腾讯TEG视觉算法团队负责人肖万鹏以从算法角度理解图像内容为主题进行了精彩的分享。
腾讯TEG 视觉算法团队负责人肖万鹏
以下是肖万鹏演讲内容,飞马网根据现场速记进行了不改变原意的编辑(有删减):
肖万鹏:非常感谢主持人,我今天分享的内容是《看图说话——从算法角度理解图像内容》,分三块:一是图像内容的理解角度。二是图像描述算法的发展和优化。三是看后续的发展方向是什么。
01
第一部分:图像内容的理解角度
从人的角度理解这个图,你们觉得怎么描述或者它的内容应该怎么总结出来?
从算法的角度,最简单的是基于分类算法,比如给出图片的定义,是机场的场景,机场场景的含义,取决于你做分类算法的时候标签怎么设定的。基于实体检测的算法,它会告诉你图像里面有男人、女人、飞机,这两个算法是现在比较常见的,都是基于标签的。这种基于分类、多标签的方式,它的弊端是只能识别出实体是什么或者场景是什么,但是他把实体之间的信息,人与人的行为这些信息损失了。但是在我们现在的场景,其实对于图片语义理解的需求越来越旺盛,所以因为这些需求,基于图像描述的算法就应运而生。如果用这种算法看,对图片的描述是停在机场的飞机前有一个男人和女人,相对前面两个基于标签的算法多了很多实体关系和行为信息。这三种方法我们再抽象出来,分类算法是“是什么“,实体检测是“有什么”,图像描述算法就是“干什么”。从语义级别是由低到高的过程。接下来我们的内容会基于第三块内容,图像描述算法,从框架和算法的技术点来看怎么做的,有什么优势和缺点。
02
第二部分:图像描述算法的发展以及优化
我们先把整个图像描述算法的架构抽象一下,整体看来就是这块内容:一是Encoder、二是Decorder、三是损失函数。前面两个最早是机器翻译场景,前两者主要的应用场景是把两种维度的信息关联起来,比如机器翻译的场