人脸识别进入“超级独角兽时代”:旷视、商汤、依图等共论计算机视觉

旷视科技昨天夜间宣布了金额高达4.6亿美元的C轮融资,引起热议。

2017年,中国计算机视觉初创公司屡创纪录。前有商汤4.1亿,后有旷视4.6亿,下一个融资会突破5亿甚至10亿美元吗?

日期,在第二届微软亚洲研究院院友会年度大会上,计算机视觉的大佬们聚在一起,微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋主持,来自商汤、旷视、依图等各家5位微软亚洲研究院院友坐到了一起——

商汤科技联合创始人兼CEO徐立,旷视科技Face++首席科学家兼旷视研究院院长孙剑,中科院计算所教授、中科视拓董事长兼CTO山世光,依图科技业务技术副总裁吴岷,以及旷视科技Face++创始人兼CEO印奇。

他们怎么看人脸识别?他们怎么看当前中国计算机视觉这个产业?更为精彩的,他们怎么看待彼此?

以下是新智元对论坛讨论的摘录整理。

3


人脸识别技术还远远没有超过人类:熟人识别还是难点

沈向洋:人脸识别现在是否已经全面超越人类识别?

徐立:现在的技术还差得很远。机器在陌生人的识别技术上可能在一定程度上超越人,但人类识别人的过程,尤其是熟人识别,是技术还远远没有达到,这当中还有很多应用可以探索。其实每一个阶段都讲“技术已经成熟了”,我们在跟罗湖深圳海关做项目的时候,他们说人脸识别很早就成熟了,十多年前就已经用上了——叫技术人员过来一问,窗口的人脸识别技术判别准确率是多少?53%。这是个什么概念呢?光靠猜的话判别准确率是50%,用了算法可以做到53%,而那个时候大家也觉得技术“已经成熟了”。在各个阶段有各个阶段不同的成熟的点,现在我们这个阶段,在一定程度上,在一些场景上技术已经可以应用了。所以我觉得现在才是大好的发展契机。


4
微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋主持论坛

印奇:无论是AI还是单纯人脸识别,商业化路径里跟场景结合非常紧密,要实现人眼的整套系统软件还有很长的路要走,但在局部问题上现在的技术已经可以跟人眼类比。

山世光:我们最近在做一个项目,身份证识别比对,左边是身份证照片,右边是现场照片,对比是不是同一个人,人与系统PK,目前来看系统是全面落败的。不过,陌生人识别,就像刚才徐立说的,尤其在被识别对象这个人相对比较配合的情况下,机器的能力可以说超越了人。但是,熟人识别,别说100万人——忘记是谁提到过——一个家庭里面机器识别5个人,要做到100%识别,现在的机器也是完全不可能的。

孙剑:机器人在家庭里识别人这一点是我之前提过。我也一直在思考,人脸识别有很多应用场景,比如支付、“刷脸”, 往深层看,人脸识别最终还是要做“人识别”。而人类识别的人时候,使用的线索远远超过人脸这个范围。所以,今后的技术也要考虑到这一点。


5
旷视科技Face++首席科学家兼旷视研究院院长孙剑表示,做“人脸识别”最后还是要做“人识别”


商汤、旷视、依图这几家,可能都从“云+端”这个角度去看整个行业

沈向洋:从产品的角度看,现在你公司的专注点在哪里?

山世光:过去几年深度学习对人脸识别的冲击,远远超越了ImageNet对图像识别的影响。刚才提到的身份证照片和人现场照片的比对,4年以前我绝对不认为这件事情是可以做的。但现在,在本人相对比较配合的情况下,机器能够在1万个人里面成功识别出那1个人,在不同条件可以做到90%到99%,友商有时候能够做到99.999%(笑),这让人来做是不可能做到的。中国有大量实名认证的需求,我们希望从这一点切入,安防、单位考勤……希望未来用人脸识别全面替代指纹识别、虹膜识别。


6

吴岷:依图在SaaS上接了200多家互联网金融远程核实业务,和友商竞争也是十分激烈。垂直行业,手机端ToC的App我们没有做,但有供民警使用进行身份核实的产品,在没有使用系统前,10万次只能查出3个人,现在识别率大幅提高,因此在智慧平安城市方面企业收益很大。

徐立:现在技术的进展确实超乎所有企业的想象,甚至超越研究员自己的想象。 现在仍然有可能通过技术的壁垒去抢占市场前期资源。未来“云加端”是一个必然的走势,看终端设备,手机大概有37亿台联网设备,安防摄像头全世界每天有2.5亿只在运行,中国在2020年所有的智能摄像头加上联网设备将达到10亿只,完全集中化可能不行,因此需要在端前置化布局,而这么多东西背后也需要整体调控,所以云和端的结合是必然。 从某种意义上说,我们这几家都是从这个角度来去看行业整体情况的。

基于垂直服务,AI一定要和行业结合。目前商汤拿到的项目,尤其的大项目,营收很大,但定制化的项目其实没有赚钱。科技企业要发展一定走产品化过程,有标准化的产品,有量,云和端都是一个好的模式,端上规模大,云上集中化,所以云加端的模式是未来AI技术行业发展的方向。


7

印奇:我们6年AI创业,探索了很多行业,发现作为AI创业公司,能选择的行业大致有几大特点,第一可能被互联网完全改造,行业里数据流通非常快,同时这也是一个特别重要的行业,信息化和联网化完成,不然数据化和智能化根本无从谈起。我认为可行有效的行业有“2.5”个,一是网络金融,涉及安全风控能力,这条路要以云为主,这里的云不是简单的API对外设备,而一定是SaaS,是一套完整的数据化服务。第二个是安防,基本是以线下摄像头作为连接智能化的核心,包括政府、平安城市、智能楼宇。这两个行业是有机会在未来两三年有非常大业务闭环的可能性。

还有0.5个行业,比较热闹,我们友商也在一起参与,跟手机、APP以及一些AR的应用有关,这个行业我自己觉得可能是叫好不叫座的,因为它本质的商业模式是IP授权,我们跟友商长时间的良性加恶性竞争,大家打着打着就都不怎么赚钱了。但这个行业,iPhone X出来后起到了很好的用户教育作用,当大家觉得人脸识别是每天都用的东西,就有机会带动更垂直的应用。就人脸识别来说,这2.5个行业是我们比较专注的点。


在学术上很难的问题,在工业上或许有更smart的解决方案

沈向洋:人脸识别情绪,这是感知问题还是认知问题?

山世光:我觉得这是一个前端感知,后端认知的问题。目前我们还完全没有做认知,但在感知方面有很多蛮有意思的进展,但是,短期内大家不要想比人做得更好——不过主要原因是我们标注人员不太够,没有专家。但在某些单点上,通过计算的方法,机器可以对人一些内心情绪的指标进行感知,而且做得比人好,比如通过高速摄像机捕捉到人的肉眼可能感觉不到的东西。但是,解读微表情,现在机器还是不行的。


8

孙剑:这个问题其实我也纠结了很久。怎么去定义情绪,比如不同的文化有不同的面部表达,没有一个标准,因此挺难的。但反过来想,像猴子这些更低等动物也可能有情绪,它们相互之间交互也会感受这些东西,似乎认知也没有在里面发挥很大的作用。所以,是不是缺乏数据造成的,这个问题我真的没有想清楚。但这是非常重要的问题 , 人脸识别以后,下一步机器人要和人交互,一定要把这个问题弄清楚。

印奇:在学术界非常难的问题,放在工业界或许有更smart的方式绕过来解决。在企业做研究的核心是问题追问,在学术上非常难的问题,可以有非常工程或产品的解决方法。在工业界解决问题强调多传感器,比如通过面部识别来判断心跳的工作,这时候添加一个传感器,也许换一种方法,就能找到性价比更高的方案。

徐立:现在科技企业主要在做两件事情,第一是根据实际需求定义问题,这一点其实各家都做得很不好,很多情况下问题稍微一转化,问题的定义就发生了很大的变化,这之后第二步才是过工业的红线。如果不过红线,那么也就是hype了。我们有一个真实的案例,销售跟监狱长聊,说我们有人脸识别抓逃犯的系统,很强,但监狱长说我们不需要,因为人已经被抓起来了;他们需要的是别的东西,比如判断监狱里的人有没有再犯罪倾向或者暴力的想法。因此,需要的是对问题的很好的定义。


iPhone X推动人脸识别公众认知,计算机视觉创业会更有前途

沈向洋:iPhone X发布让公众都知道了人脸识别,这给各位的公司带来了怎样的机会?

徐立:我们正好和iPhone团队有比较好的交流,他们做完人脸识别之后得出的结论是,特别艰苦,艰苦在哪里呢?一是数据,二是各种Corner case,这就是研究与工业最大的不同,研究做到90分就已经很好了,每件事做到90分,然后找方法创新,这篇文章就能够发表,也觉得自己做够了;但在工程里面,每样东西都要做到99分甚至100分。所以,我想强调,真正做产品研究非常非常不容易。

再来讲人脸识别应用场景,我觉得我们这几家,有义务去把人脸识别的整体应用标准定下来。如果手机能够在现阶段“刷脸”,那手机上就有一个“Face print”(脸纹),我去商场购物,进入小区,是不是能像刷二维码一样刷这个face print?但目前来说,我们这几家的标准应该是不兼容的,所以,随着市场的推广,就会遇到一个问题,没有办法进行数据流通。我觉得应该站出来说, 未来有非常多的线上线下场景,前期如果能够形成一个联盟,尽早的把标准和流通性制定出来,之后应用场景会更好。


9


印奇:我2011年就在微软做人脸识别,一些技术还用到了Windows上,为什么这一代iPhone能够用上人脸识别?我认为背后有两大驱动力,一是全面屏,另一个是手机厂商对摄像头的投资。在这两大因素的驱动下,人脸识别成为大家短期关注的点,但它很可能只是一个开始,并非苹果核心商业动机,这是第一。第二点,我们现在与华为、小米和VIVO合作,感觉很强的一点就是,技术厂商真的非常需要软硬一体化的能力,这些手机厂商有非常强大的供应链,现在他们遇到这样一个新的问题,怎么把硬件和软件放在一块,其实非常难。第三点很有意思,iPhone X产量不行,我们最近接到富士康的一个需求,如何通过视觉手段在生产过程中查看良率。所以,光是一个iPhone X,里面就有这么多视觉有关的故事。

孙剑:我记得原来在微软的时候,在Harry(沈向洋)办公室,讨论计算机视觉到底能在微软做什么。Harry说做到Windows里面,做了几年终于把Windows Hello做进去了。到了今天又这样新的机会,把人脸识别做到几乎所有手机厂商里。感觉十几年前想到的一些事情,今天真的可以真正动手去做了。苹果iPhone X会推动产业的发展,把价钱降下来,计算机视觉创业会更有前途。

11月8日,在新智元 AI World 2017 世界人工智能大会上,旷视科技首席科学家、旷视研究院院长孙剑博士将发表演讲,解读AlphaGo Zero核心技术之一的ResNet,聚焦人脸识别等视觉前沿技术和应用,分享他在旷视的最新研究。

2

孙剑博士介绍说:“如果回顾这几年视觉计算的方法,我们会发现我们已经从人工设计特征,变成了人工设计神经网络结构。从 2012 年的 AlexNet 开始,到 2014 年的 GoogleNet & VGG,到 2015 年的 ResNet,再到今天的各种 Nets。如果我们从计算的角度上看,我们会发现在这个 Spectrum,主流方向是计算量愈来愈大。

“但是,相反的方向研究缺比较少。我们知道今天智能计算不仅要运行在云上,也要运行在端上。对于手机或嵌入式设备,计算量可能只有5-10M FLOPS,我们如何设计在端计算上最好的神经网络呢?如何填补这个空白?

“在这个演讲中,我将分享 Face++ 旷视研究院最近研究成果 ShuffleNet。ShuffleNet 的计算设计目标是 10-50M FLOPS,它的核心思想是进一步把滤波器分组的思想应用的 1x1 卷积上,使用一个通道间的 shuffling 操作,有效增强了分组 channel 间的信息交换。这个网络在 10-100M FLOPS 上的性能现在是最好的。我也会展示如何将 ShuffleNet 应用于 Face++ 的产品中,例如我们最近推出的基于 FPGA 的全帧率、全画幅智能人像抓拍机,以及手机端应用于 vivo、小米等的人脸解锁技术。”

原文发布时间为:2017-11-1
本文作者:闻菲
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号
原文链接:人脸识别进入“超级独角兽时代”:旷视、商汤、依图等共论计算机视觉

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值