视频介绍:通过AI智能的视频画面主体识别能力和字幕识别能力,实现在手机端竖屏全屏观看横拍视频的新体验,减少长时间横握手机的不适感,打破横、竖屏内容的创作界限,一次拍摄制作适应不同屏幕状态的最佳播放显示,同时提升平台的存储分发效率;竖屏时聚焦视频中主体或焦点区域,同步预览全幅画面,并支持OCR智能识别硬压字幕完整显示;同时支持视频画面的竖屏、横屏全屏的无级平滑旋转切换;给用户提供沉浸视界新体验。
作者:刘小辉,爱奇艺技术经理,研究生毕业于哈尔滨工业大学计算机学院,十几年视频、音频处理的工作经验,曾从事多年非编软件开发,2013年加入爱奇艺,参与全平台播放内核的开发,专注视频、音频解码、同步、渲染,后续带领团队优化播放架构,提升全平台的播放体验,支持了自适应码流、HDR、沉浸播放等功能。
云端实现ai模块的目标检测、说话人检测、人脸等智能算法检测,在用户终端根据陀螺仪的状态、客户端分辨率、宽高比等进行自适应调整,同事对字幕等进行裁剪与缩放,让用户获得最佳体验。
在云端,对整个大场景进行分割细化,可以减少传输的延时,并提高预测关键人物的准确性:
说话人检测:声纹检测+人脸特征值检测;
客户使用时,面临的一些挑战:
云端视频还需要对用户窗口尺寸进行自适应调整:
- 同影片分辨率不同窗口尺寸
- 同窗口尺寸不同影片的分辨率做自适应