腾讯优图一年记:贾佳亚的专访笔记


在2018年9月的腾讯优图计算机视觉峰会上,腾讯将优图实验室升级为腾讯计算机视觉研发中心,而后者第一次发布了其成立一年以来最新研究成果及战略布局。

本文是个人对机器之心的贾佳亚专访以及发布会上贾佳亚演讲的压缩整理。

原文链接:专访 | 腾讯优图实验室贾佳亚:加入优图第一年
原文作者:邱陆陆

贾佳亚是 2017 年 5 月加入优图实验室,担任总经理一职的。1 年 3 个月之后,他以「可以看到、可以感受到、可以用到」为标准,精选了优图实验室的一众技术,在上海完成了实验室的第一次对外公开亮相。


关于规模

最开始我一个人到今天管理着有几十位的博士和相当数量的开发人员团队。
我们在深圳和香港大约有一百多名研究人员,在上海和合肥也有一百多人。除此之外还有全球高校在读的很多硕士、博士生,愿意加入我们短期或者中期一起做科研。

关于服务

我们把很多视觉领域重要的算法变成了服务提供给其他团队。我们的服务调用起来非常简单:我们有整套的

  • 数据理解
  • 清洗
  • 模型构建
  • 以及在生产环节快速的服务器端和移动端调用。

业务成熟的原因

以前腾讯有不少团队都有少量的研发人员在做同方向的开发工作,后来和我们合作慢慢发现,优图的服务确实在准确度,稳定性和执行效率上都非常高,所以逐渐主动地、信赖地把业务交给我们完成,改为直接调用我们的服务。这是一个很大的变化。

我们选择任务时考虑的因素有三点(目标:尽量高效利用资源)

  • 第一是必须要可交付,以及交付后应用范围有多大;
  • 第二是关联性,这个任务和之前做过的任务是否有关联,如果有,那我们可以高效率地快速完成;
  • 第三是匹配性,项目的要求和内部的科研人的能力是否匹配。

关于技术与需求之间的gap

  • 视觉技术方面我们已经很少有优图完全没有涉猎的部分了。从自动驾驶感知的核心技术到医疗影像分割,我们把技术补充得很全面了。我们不止有一个「锤子」,而是有一个「工具箱」。(简而言之就是技术团队很强)
  • 腾讯的业务涉猎非常广泛,需求很多,钉子很多

学术的人才来工业界的优势

  • 学术界的资深学者知识储备是全面的。虽然我的最强研究成果只是计算机视觉中的一部分,但是我对整个领域都有比较清楚的认识。我知道图像识别现在最高的准确率是多少、图像分割经历了语义分割、个体分割、全景分割之后是否有新概念提出来。这种对新概念和方向的把握确保我们可以把一个不专业的需求分解,转化成技术语言和模块,然后清楚怎么找每一个问题的解决方案。
  • 我的团队没有遇到过「不知道怎么做」的问题,我们唯一的问题是「如何比业界其他团队做得更好」或者「如何创新地解决这个问题」。

学术界与工业界的gap的例子

  • 对于一些比较成熟的领域,学界产生了一些非常基础的、有效的、可以合理利用的模型,但它们并不适合在工业界直接采用。比如 ResNet 是做图像分类的常用模型。但是 ResNet 没有考虑执行效率,没有考虑类别间的距离问题。比如在缺陷检查方面,我们要考虑一些看起来非常相似,但是实际上是两类缺陷的情况,这时候这个问题就变成「细颗粒度分类」,就变成一个不适合用 ResNet 解决的问题。缺陷检测模型还需要考虑光照情况、遮挡情况,直接用开源模型改一改,不可能产生好的效果,这时就需要能力非常强的研发人员,去针对特定问题设计新的模块和环节,例如增加一些新的模块、跳转、循环方式或者特征,这是一个没有做过特定方向的深度学习研发人员所不可能设计出来的。
  • 这也是为什么市场上有很多公司说自己在做人工智能,但是独角兽只有寥寥几家。大公司里的实力一流的团队也很少。因为想要把全部前沿 AI 问题做深做透,接触各种业务,就需要非常强的人才储备和管理。

关于模型优化方法

  • 人脑的例子:5000 年以来,人类的智商是平稳,甚至稍微下降的。但是即使现在我们要学很多知识、掌握很多新工具的用法才能应付日常生活,人们也没有觉得是很大的智力负担。这是因为人脑是一个自适应的网络系统:它的基本组成构件搭成以后,整个通路的构成、参数的设置都是自适应的。5000 年前的知识,在这个框架生成了一个结果,使我们祖先在野蛮的大自然里活了下来。5000 年以后的文明环境需要的学习语文,数学,科技也可以在同样的框架下生成一个新的回路,把这些知识存储运用起来。

  • 类似地,将来不会每个领域都由各自的模型「统治」的局面,而是形成一种通用智能,把所有的框架优化到最好,合而为一。现在优化方法还处于 AI「初级阶段」,主要靠科研人员的专业知识积累。

服务体系搭建

  • 我们总计超过二百人的团队和腾讯内部的构架部门、腾讯云一起搭建了集群环境,让深度学习的网络能够在大规模并行系统上开展起来,而在此基础上,辅以精心设计的管理人员层级架构,研究人员得以专注于算法和技术,以及算法在各个端的部署,研发出了种种看得见摸得着的算法。

方向

  • 娱乐、OCR、工业检测已经有一定成果
  • 四大方向十个领域:社交娱乐(脸部操作、人体姿态理解、图像增强)、工业生产(OCR, 办公、质量检测)、社会进步(零售,文化,社会公益)、前沿探索(自动驾驶,医疗影像分析)

AI+零售

  • 智能货柜依托于商品识别,能让用户迅速完成商品购买,让商家完成供应链的管理。

AI+工业生产检测

  • 与华星光电进行合作,做面板智能检测,减少人力需求。现在我们辅助华星光电完成超过 100 道工序的检测,减少超过 60% 的质检人员。而且当新的员工进来的时候,企业可以节省一大笔培训成本,让需要用人力完成部分的人员迅速上岗。
  • 高压电线的工业检测:利用算法协同无人机,能够同时做 9 项缺陷的检查。在关键元件绝缘子的检测上面,我们在一期达到 95% 的准确率,后期我们会继续推进不同缺陷的检测。

AI+社交娱乐

  • 优图的长处是在 3D 人脸关键点、人脸分析和人脸编辑方面.
  • 新的探索方面,我们做了三维人体重建。很多游戏需要大量的动作捕捉进行 3D 建模,这是一个非常昂贵的过程。优图在思考,能否通过一个视频就实现 3D 建模的匹配和完成。这包括几个重要的方面:一个是人体重建算法,第二个是动作捕捉算法。在人体重建上,我们可以达到 53 毫米的精度,在动作捕捉上是 74 毫米的精度。我们相信这会在游戏的设计和研发过程中,产生非常大的作用。
  • 我们刚刚研发的 FaceKit,希望摆脱手机端对于三维摄像头的依赖,希望通过传统的单目摄像头,完成脸部追踪和三维重建。用一个 iPhone6 可以实现与 iPhoneX 类似的结果。我们相信这样的算法可以在非深度摄像头手机上完成娱乐场景的普及化。

AI+办公

  • OCR,是十几、二十年前很多的公司就在做的事情。对于手写体、数字、各种图标的识别都要有一个调试的阶段。优图的 OCR 一直以来是我们的强项,今年我们就加大了对于标准化数据的识别的投入。依托于第三方,我们与整个市面上现有最好的技术做了比较,在证件照、增值税发票等方面,优图所开发出来的这套 OCR 软件,能实现 95% 以及 99% 的准确率,这在行业里面是非常领先的。

AI+医疗

  • 医疗部分优图希望投入到三个主要方面: 在肺结节、宫颈癌、乳腺癌方面,通过视觉算法加上海量的医疗影像数据,通过腾讯觅影接入超过 60 多家医院提供的数据,提供全面和高效的癌症早筛的方案。我们的理念不是取代医生,而是用AI 的技术提高医生本身的确诊率。在灵敏度和特异度上,我们发现我们的结果能够产生很大的作用。在过往盲测的检测过程中,医生得到结果后,会根据我们的算法改善结果,这个操作会让癌症的识别率大大提高。
  • 这是我们与硬件厂商开始所合作的集成超声设备在做实时监测。在医生做超声的检测时,以每秒 25 帧的速度发现可疑的地方,然后把图像上传到云端,通过腾讯觅影做更精确的判断和检查,然后把结果反馈给医生。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值