在场景需求的推动下,以及背后算法、算力、数据的支撑下,AI 已经慢慢走出实验室,开始拥抱产业,这其中也包括 RTC 行业。在实时的视频、实时音频、实时传输、视频内容检索与推荐、实时交互等层面,都已经出现了与 AI 结合的落地应用。
大会门票限时免费截止到 9 月 30 日,扫码报名
部分演讲议题
Topic:Deep Learning based Super Resolution for mobile RTC
Speaker:周世付 声网Agora AI 算法工程师
近几年,超分辨率技术一直是计算机视觉领域的一个热门话题,其应用前景广泛,比如RTC。然后,超分辨率技术在移动端落地的过程中,面临着模型过大、运算复杂、设备发热过大的问题。本次演讲内容将重点分享超分辨技术在移动端落地的探索和实践经验,内容包括对抗神经网络、模型剪枝压缩等。
Topic:基于内容的视频推荐和实践
Speaker:谢晓辉 Hulu 首席研发经理
视频网站面临的技术挑战之一是如何对视频做精准的用户分发,理解用户、环境和视频内容是解决问题的核心和关键。以头部视频为主的视频网站由于用户选择成本更高、消费行为稀疏、复杂而且感性,因此对视频进行精确、细致与丰富的理解和刻画显得更为重要。相比传统的基于用户行为的推荐系统,如何借助于视频内容理解来优化个性化推荐和内容发现呢?本次演讲内容将重点分享Hulu在这一方面的探索和实践经验,内容包括视频理解在内容冷启动、视频精细化标签和分组、深度推荐模型中的应用等等。
Topic:RTC x Audio x AI,现状和展望
Speaker:陈若非 声网Agora 音频体验与工程总监
本次演讲会从一个相对宏观的角度来分析介绍人人和人机交互相关的音频技术分类,现状总结和对未来的展望。其中会重点展开RTC与音频,AI结合的部分,我们需要解决哪些问题,有什么挑战,AI能在哪些方面帮到我们,声网在这些方面的一些思考和进展,其中也包括了AI降噪,AI丢包隐藏,声音美化等音效的成果展示。
Topic:互联网语音内容审核中的关键AI技术
Speaker:胡泊 依图科技 高级架构师
相较于成熟的图片、视频审核,语音是行业公认的新难题。语音违规不仅风险更隐蔽、影响更恶劣,其对应的AI技术也存在更高的壁垒。难点一:高复杂度场景下的语音识别。语聊房、视频直播、短视频中的语音往往伴有极强背景音(如音乐、噪声等)、语速极快咬字不清、口音严重等情况, 使得其识别难度数倍于传统场景。难点二:极低误报率要求下的违规内容过滤。上述场景中,违规内容出现的概率往往在万分之一甚至十万分之一,这就要求算法模型在不漏太多的情况下尽可能的减少误报(从而减少人工审核的工作量)。本次演讲,依图将结合自身经验,介绍如何有针对性的进行技术实现和方案设计,克服以上难点。
Topic:基于神经网络的自适应传输
Speaker:马展 南京大学电子学院副教授、博士生导师
网络是动态变化的,如带宽波动和意想不到的延迟,伤害用户的体验质量(QoE),而且全球网络媒体服务都需要面对这个问题。在这次演讲中,我们提出了一个神经自适应传输(NAT)框架解决全球网络规模下互动媒体服务的网络问题。整个神经自适应传输(NAT)系统有三个主要组成部分:一个基于学习的云覆盖层路由(COR)方案,通过绕过网络拥塞并找到最低延时路径,提供最佳传输路径;一个基于协同视频处理(CVP)系统的残余神经网络在设备端来协调端上的计算能力,通过学习分辨率缩放来改进QoE;还有一个深度强化学习(DRL)的自适应实时流(ARS)策略,用来选择适当的视频比特率,以获得最大QoE。我们验证过COR可以提高用户满意度5%到43%,CVP可以减少相同质量下带宽消耗的30%以上,基于DRL的ARS可以保证流媒体流畅度,QoE也可改善50%以上。
以上只是一部分与 AI 相关的话题,可以在「阅读原文」找到更多干货演讲。