深度学习的出现,某种程度上改变了我们对计算机视觉的定义。而PaddlePaddle是百度开源的深度学习框架,它是如何支持百度视觉技术,有哪些工程实践,这篇文章将由百度视觉技术部主任研发架构师刘国翌为大家解答。
以下为刘国翌老师演讲实录
百度AI视觉能力
百度内部大规模应用计算机视觉的技术分为四个方面,第一是图像识别,包含图像分类、文字识别、人脸识别等。第二是图像检索,包含图文、相同图片、相似图片和商品图片检索。第三是视频理解,主要涉及视频分类、目标追踪、人体姿态跟踪,应用在商业、监控、安全、新零售等领域,。第四是机器人视觉,包括嵌入式视觉、SLAM、深度传感器。这是百度计算机视觉整体的划分,除机器人视觉大量应用深度学习技术,其余三个技术是从传统的机器视觉的方法逐渐过渡到现在最流行的深度学习的过程,是逐步替代的。
其中,图像识别是百度应用最广泛也是最重要的技术,包括无人车、推荐、图像配图等等。它的基础能力包含通用分类、文字识别、图像检索、细粒度识别、图像审核、视频内容分析六大能力。
图一:百度识图基础能力
通用分类:在实际应用中,我们需要处理上万类的通用分类以及各种各样的目标检测,因此百度内部建设自己的分类体系。
文字识