深度学习让系统“看”懂短视频内容

伴随短视频的火热,用户规模、视频观看时长也在日益增长,而面对海量的视频,如何有效的推荐给用户、如何洞察热点事件成为了关键。美图数据部门北京技术总监赵丽丽,在LiveVideoStackCon 2017上与我们一同分享了深度学习在短视频视觉内容分析中的核心应用方向,以及前沿深度学习算法在产品化应用于短视频分析时的技术难点和解决方案。


演讲 / 赵丽丽

整理 / LiveVideoStack


很高兴可以和大家分享深度学习在短视频视觉内容分析中的应用,分享包括四个方面,首先回顾深度学习的发展历程和讲述深度学习在短视频领域进行自动化视频内容分析的意义和必要性,再结合美拍短视频业务分享我们将深度学习应用到视频内容理解中遇到的问题和解决思路,最后从产品、数据以及技术层面展望后续的一些优化方向。


深度学习发展历程


神经网络的发展最早可以追诉到上世纪40年代,Walter Pitts 和Warren McCulloch提出使用阈值逻辑单元来仿真神经元的输出。1956年人工智能世界大会上首次提出了人工智能的概念,1958年Rosenblatt提出感知器的概念并发布了相应的算法模型。由于感知器是一个单层的神经网络,它无法学习诸如异或操作的非线性功能,由此神经网络的发展也进入了冰冻期。1986年Hinton首次提出基于反向传播算法学习特征表示,使得多层神经网络的训练成为可能,而直到现在这一算法仍是深度神经网络训练的核心过程。由于当时硬件计算能力以及数据量有限,多层神经网络训练所需的计算消耗和它带来的效果提升并不能满足人们的需求。直到2006年Hinton再次提出深度置信网络(DBN)和非监督学习的概念,从学术上证明神经网络层数是无限的,自此出现了深度学习的概念。


  • 深度学习模型架构发展


2010年斯坦福大学李飞飞团队公布了千万级标注数据集ImageNet,与此同时发起了大规模数据识别竞赛,在竞赛前期参赛算法采用的都是传统手工设计的特征机器学习算法,结合传统机器学习分类算法,分类误差在26%左右。2012年,Alex提出使用深度神经网络(AlexNet)进行分类,将误差降低到了16%。


除了理论积累和创新,GPU技术的发展带来的硬件计算能力提升以及大规训练数据集的可用性,都对深度学习的发展起到积极的可推动作用,像GoogleNet、VGG、ResNet等越来越多的网络结构被提出,这些网络结构的设计思路是往网络深度发展。而深度学习网络模型在满足持续提升学习效率的同时,实际业务应用的需求也越来越高,因此更多学者提出更宽的网络——通过拆分通道的卷积操作来幅度减少卷积网络模型参数的数量以及卷积操作次数。


  • 深度学习框架


除了以上两点,深度学习网络模型迭代更新速度如此之快,很大程度也得益于大量的开源深度学习框架,比较有代表性的如Caffe、MXNet、TensorFlow、Torch\Pytorch等,这些开源框架极大方便了新的深度神经网络的提出和验证的过程。


短视频自动化内容分析


  • 计算机视觉基本问题&应用领域


  • 3
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值