【专题介绍】声临其境 — 音频沉浸体验

最新推荐文章于 2024-07-10 16:47:58 发布

LiveVideoStack_

最新推荐文章于 2024-07-10 16:47:58 发布

阅读量547

点赞数 1

文章标签：算法大数据编程语言人工智能 java

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1NTEzOTM5Mw==&mid=2247523360&idx=2&sn=4f1b997fb1a32415e036ee2b30dfdd73&chksm=fbda340eccadbd188f9ec8600408ea1dcf54b7a3183018f959b90d12169f355235f165ea846a&scene=126&&sessionid=0

版权

”

“音视频+无限可能”是一扇 LiveVideoStackCon面向新兴领域开启的大门，在移动互联网红利消失、内卷的局面下，智能车、制造、金融、医疗、出海等新兴领域还在迫切追寻新技术带来的增值。在“音视频+无限可能”，提前看到新机会、新案例、新实践。

6月24日-25日，LiveVideoStackCon 2022 上海站，和你一同开启通向未来的大门。

声临其境 — 音频沉浸体验

具有仿生效果的全景听觉体验让多媒体音视频信息变得更加丰富立体，声色俱佳。在移动互联网内容为王的时代下，在远程教育、远程办公、在线娱乐等场景中，空间音频、声场还原、高保真高还原立体声音质、高清语音、智能语音增强等技术，使内容服务的信息和元素更加多姿多彩。本专题将从沉浸式声学/音频技术所面临的挑战、场景应用探索与实践等方面和大家一同探讨更加真实的“声临其境”体验。

出品人

邓滨

Publisher

广州迷听科技有限公司

创始人、董事长兼CEO

邓滨先生毕业于清华大学，获计算机硕士学位。拥有通信行业、移动互联网行业、智能硬件行业二十年从业经验，曾供职华为、UTStarcom、Nortel、百度等大型科技公司，曾率队打通全球第一个TD-LTE video streaming call，是20余项国际及中国发明专利发明人。邓滨先生曾任小鱼在家首席音频科学家及运营商业务负责人，由零到壹，实现运营商市场累计销售小度智能屏产品达千万台，达到同品类产品销量世界第一。邓滨先生作为连续创业者，近年来重点关注领域为产业互联网方向，关注人工智能等前沿技术对传统产业/行业的升级和变革性机会，传统产业上下游全链条的网络生态场景，对行业互联网的音视频技术应用、数据服务等领域，关注数据驱动产品迭代以及商业运营的长期价值。邓滨先生现为广州迷听科技有限公司创始人、董事长兼CEO。

讲师与议题

冯建元

Speaker

声网Agora

音频算法负责人

美国伊利诺伊理工学院博士，伊利诺伊大学芝加哥分校特聘研究员，声网Agora音频体验算法专家，拥有十年算法研究从业经验。先后主导过多个实时音频通讯领域的开发项目，包括AI降噪、盲源分离、实时美声音效系统等领域的产品研发。目前负责声网Agora超高音质音频系统的设计与研发。

Topic

3D在线互动场景中空间音频的实时渲染

沉浸式的在线互动，无论是游戏、社交还是会议等在线互动场景都希望能够拥有“声临其境”的体验。在现实中人们可以随意移动位置、扭头改变朝向。而我们感受到的声音也同样更随我们移步换景动态变化。但在3D在线互动场景中要实现高音质、多音源、可移动、低延迟的空间音频实时渲染是一件极具挑战的事情。

本次演讲会从如何让人们在3D在线互动场景中有更为真实、更为自然的音频体验出发探讨想要在实现“声临其境”有哪些是必备的体验需求。以及实现这些体验需求的同时如何解决算力、延迟、音质等技术挑战。

内容大纲：

1.3D在线互动场景需要哪些空间音频实时渲染来实现“声临其境”

2. 端云结合的空间音频实时渲染引擎的设计

3. 空间音频实时渲染在游戏、社交等行业中的应用

李海

Speaker

爱奇艺

AI算法高级经理

李海，现任爱奇艺AI算法高级经理，中国计算机学会（CCF）语音对话与听觉专业委员会执行委员，CCF多媒体技术专业委员会执行委员，CCF YOCSEF（成都）学术委员，CCF成都分部委员。主要从事计算机视觉、音视频多模态内容理解、语音合成与识别、语音转换、音乐信息检索等相关技术的研究与技术管理工作，负责爱奇艺成都算法团队管理工作，带领团队参与了智能体育、智能拆条、智能语音等多个项目。在ICME、ICASSP、Interspeech等国际会议发表论文5篇，申请专利12项，参与多个重点项目并获得国家级奖项。

Topic

IQDubbing-面向影视剧的AI配音技术

随着长视频制作行业和消费市场的持续发展，国外越来越多优秀内容“走进来”，同时更多的国内优秀作品“走出去”，这对配音本地化提出了极大的挑战。作为国内长视频的领导者爱奇艺在自有的海量内容优势下，基于Voice Conversion，MDX，Denoise等AI技术，研发了面向影视剧场景的AI配音技术IQDubbing，有效地缓解了影视剧配音本地化的问题。

本次分享将分为三部分：第一部分从配音知识和相关的背景展开，介绍传统配音的工作流程和遇到的问题，以及当前Voice Conversion技术的发展概况；第二部分将介绍爱奇艺IQDubbing技术，如Voice Conversion，MDX等，以及相关创新点等，同时介绍IQDubbing配音技术在实际业务中的应用效果；第三部分介绍IQDubbing遇到的问题以及未来的计划。

内容大纲：

1. 现代影视剧配音面临的挑战

2. IQDubbing智能配音技术及应用

3. IQDubbing面临的挑战及未来计划

李勤

Speaker

广州迈聆科技

CTO

李勤，广州迈聆科技CTO，兼视源股份中央研究院科学家，长期在音视频通信及声学领域耕耘。曾在美国微软工作10年，任Lync/Skype音频团队负责人，主导Lync/Skype音频算法的开发和音频测试标准的制定。2015年回国先后在小鱼易连，出门问问任职，于2020年加入视源股份。

Topic

空间音频在远程会议场景中的应用

空间音频（Spatial Audio）在影院、游戏、虚拟现实、舞台录音等场景中得到了广泛的应用，它提供给用户更加接近于真实的听觉感受。空间音频的实现方式主要有多通道扬声器（muti-channel speakers）和双耳音频（binaural audio）。其中双耳音频对于嘈杂环境下语言的理解起到关键的作用，对于交互体验和语音可懂度的提升都有帮助，但是到目前为止空间音频在远程会议场景中的应用还非常少。

本次演讲主要探讨空间音频在远程会场场景中应用的技术挑战和实现方式。从系统的角度探讨如何在远程会议中提供给用户更好的听觉体验。

内容大纲：

1. 空间音频对于语音交互和语言理解的重要性

2. 空间音频在远程会议场景中的技术挑战和难点

3. 空间音频在远程会议中的实现和摸索

顾骋

Speaker

全时

音视频研发部经理

顾骋，目前担任全时音视频研发部经理，负责全时云会议的音频技术架构。在长期的实践中积累了大量关于噪声抑制、回音消除等方面的工作经验，搭建过RTC场景的音频架构并应用于视频会议、在线教育等系统中。

Topic

语音前处理技术在会议场景中的应用与挑战

随着在线会议的普及，用户已经不再满足于能听到，而是要有更为极致的听感体验，如何能够在复杂多变的应用场景中依旧保证声音清晰流畅是对会议系统的极大挑战。本次分享共分为三个部分，第一部分介绍影响会议声音质量的因素及应对方法；第二部分介绍语音前处理技术在会议中的应用及传统数字信号处理所面临的困境；第三部分介绍语音前处理与深度学习技术的结合及效果。通过上述三部分希望可以让大家对会议场景中的语音前处理技术有所了解。

内容大纲:

1. 如何保障会议中的声音质量

2. 语音前处理在会议中的应用

3. 拥抱深度学习追求极致音质

LiveVideoStack_

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【专题介绍】声临其境 — 音频沉浸体验

”“音视频+无限可能”是一扇 LiveVideoStackCon面向新兴领域开启的大门，在移动互联网红利消失、内卷的局面下，智能车、制造、金融、医疗、出海等新兴领域还在迫切追寻新技术带来的增值。在“音视频+无限可能”，提前看到新机会、新案例、新实践。6月24日-25日，LiveVideoStackCon 2022 上海站，和你一同开启通向未来的大门。声临其境 — 音频沉浸...
复制链接

扫一扫