百度邓凯鹏:飞桨视觉技术解析与应用

不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。


人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年4月26日,第14期“AI未来说·青年学术论坛”深度学习线上专场论坛以“线上平台直播+微信社群图文直播”形式举行。百度邓凯鹏带来报告《飞桨视觉技术解析与应用》。

百度邓凯鹏的报告视频

邓凯鹏,2017年本硕毕业于上海交通大学电子信息与电气工程学院,现于百度深度学习技术平台部从事CV方向模型研究和优化工作。PaddleDetection目标检测库和PaddleVideo视频库的核心设计者和开发者,两个模型库均是在工业端到端落地的优秀实践,支撑了大量线上业务,其中基于Paddle开发并优化的YOLOv3目标检测模型,在精度和速度上达到业界最优,通过裁剪蒸馏等方法压缩的YOLOv3模型在移动端精度和速度大幅领先于当前最优的SSDLite-MobileNetV3。Paddle 3D视觉方向负责人,完成Paddle 3D视觉方向的建设和推广,建设的Paddle 3D模型库支撑百度研究院发表论文10余篇。

报告内容:介绍飞桨视觉技术的发展现状,分析飞桨开源的各视觉模型库的特色和优势,并结合图像分类,目标检测和模型压缩及部署上端到端优化及应用案例,解读飞桨在视觉模型完备性和领先性上的已有建设工作,介绍视觉模型精度和预测速度优化上的方法技巧和实用效果,并分享飞桨在视觉模型选择,性能优化和部署应用上的优秀实践,解析飞桨视觉模型在工业应用实践上的优越性。

飞桨视觉技术解析与应用

首先,邓凯鹏老师介绍了当前飞桨框架以及视觉模型库CV的整体建设情况。飞桨框架是源自产业实践深度学习框架,同时支持静态图和动态图搭建网络,支持高效大规模分布式训练,同时推出了像PaddleSlim模型压缩还有安全加密的工具,以及在服务端和移动端进行预测部署一些引擎。基于飞桨框架,百度开源了自然语言处理、计算机视觉、推荐系统以及语音处理等模型库,在基础模型库之上又开源了一系列端到端开发套件,在端到端开发套件之上开源了一键式迁移学习工具PaddleHub,还有自动进行网络结构设计的AutoDL,另外还开源了定制化训练服务平台EasyDL以及一站式开发训练平台AI Studio。

接下来邓凯鹏老师列举了飞桨框架几大优势:(1)飞桨框架同时支持静态图和动态图,动态图组网和调试方便,静态图运行速度快、部署方便,同时支持静态图和动态图使开发更为便捷。(2)飞桨是支持超大规模深度学习并行模型的,在海量数据和模型快速迭代的场景中有很大的优势。(3)不仅使用和训练方便,飞桨框架和多端多平台推理部署基本上是无缝对接,并且有领先底层加速库,还有模型压缩工具针对服务器端和移动端的部署引擎。(4)在应用方面,飞桨推出经过实践验证的丰富应用模型库,开源了多个国际竞赛的冠军算法。

之后,邓凯鹏老师对计算机视觉进行了简要介绍。飞桨推出了工业级计算机视觉模型库,百度构建了图像分类、目标检测、图像分割、视频处理、图像生成、文字识别、度量学习以及3D视觉相关方面视觉能力,同时也构建了PaddleClas图像分类、PaddleDetection目标检测以及PaddleSeg图像分割这些端到端的开发套件,接下来邓凯鹏老师就主要基于PaddleClas和PaddleDetection应用介绍了飞桨在实际技术中建设。

(1)PaddleClas图像分类。图像分类的任务目标形象地说就是给计算机一张猫的图片,通过计算机实现算法或者模型让计算机准确判断这是只猫。图像分类的应用是十分广泛的。

飞桨团队技术开源了PaddleClas图像分类套件,这是为工业界和学术界打造图像分类任务的工具集,PaddleClas包含23个系列,多达117种分类模型,这也是当前丰富度最高的图像分类代码仓库。同时PaddleClas对于模型优化提供了最前沿的支持,比如,将ResNet50_vd精度优化到82.4%的SSLD知识蒸馏方案,也随着PaddleClas一起开源了。另外基于PaddleClas开源了多个特色应用以及工业级部署工具,在工业应用场景有非常好端到端的落地能力。

下面邓凯鹏老师具体地介绍了PaddleClas的优势。PaddleClas图像分类库解析与应用提供了服务器端模型和端侧模型两个系列模型来支撑不同的运用场景。

图像分类模型有大有小,应用场景各不相同,如果在云端、服务器端上面部署模型时,一般认为算力是足够的,更倾向于追求模型精度;而手机端、嵌入式端移动端设备部署的时候,受限于设备算力和内存,对于模型大小、速度有更高的要求。

首先是服务器端模型,服务器端模型支持多个序列,最新的EfficientNet在PaddleClas已经支持了。邓凯鹏老师根据不同模型的预测实验曲线非常推荐大家使用ResNet_vd_SSLD系列模型,业界对于ResNeT支持和优化远比于EfficientNet要成熟,而ResNeT_vd是基于ResNeT的一个高效改进,同时百度自研SSLD知识蒸馏方案对其精度又进行了进一步提升。

然后是端侧模型MobileNet系列和ShuffleNet系列,邓凯鹏老师也根据端侧模型的精度以及在相应预测实验情况曲线推荐使用MobileNetV3_ssld系列,MobileNetV3本身精度和速度有很大优势,SSLD知识蒸馏又对它的精度进行了进一步提升。百度将MobileNetV3_large的精度提升79%,将small模型精度提升到71.3%。

(2)PaddleDetection目标检测库。目标检测也叫目标提取,即从图像中框出你感兴趣的目标,输出这个预测框的位置以及框中类别信息的任务。比如说在车辆检测中,目标检测需要在一个画面里框出车辆,并告知框里是什么类型的车,目标检测任务是计算机视觉主要方向之一,同时它也是实例分割、人员检测、关键点检测等任务的基础,目标检测任务在实际应用中也是非常广泛的。

PaddleDetection目标检测库基于飞桨核心框架,提供了多种模块化设计的检测器,并且提供了数据增强、损失函数等一系列的组件,还提供了丰富的模型库。同时PaddleDetection集成了模型压缩能力、跨平台部署能力,PaddleDetection检测部署方案目前支持工业质检、遥感图像检测、无人巡检等多个实际落地项目。

然后邓凯鹏老师列举了PaddleDetection一些特点,(1)模块化设计,这些模块可以轻松组合和扩展出你需要的目标检测器;(2)模型丰富,在模型库层面上百度支持了10余种主流算法,100多种目标检测模型,同时持续提升服务器端以及移动端优化改进模型,(3)高性能和工业级部署,PaddleDetection性能高,而且工业级部署上有一套全流程解决方案。

PaddleDetection在持续优化服务器端和端侧模型,其中服务器端的单阶段经典检测模型如YOLOv3。原作者的YOLOv3在COCO数据集上精度是33.0;而在PaddleDetection里YOLOv3版本实现过程中,使用了像大量图像增强等一系列的优化措施,精度达到了37.7%,是高于原作者4.7个百分点,同时推理速度也是领先于原作者的。

在此基础上百度对YOLOv3模

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值