什么是Ambisonics?
Ambisonics 是一种捕捉和重现三维声场的音频技术,由英国工程师和学者 Michael Gerzon(1945-1996)发明。随着计算机技术和音频处理能力的提高,特别是在21世纪,Ambisonics重新受到关注,尤其是在虚拟现实(VR)和增强现实(AR)领域。
导言
Ambisonics与传统环绕声格式
Ambisonics与传统的立体声、环绕声格式有什么区别?
环绕声系统
Ambisonics系统
上面说到,Ambisonics也能提供沉浸式的声音体验,它与传统环绕声格式诸如5.1、7.1的区别在于它连续地记录和表示声场内所有声音信息,而传统环绕声格式通常仅记录分轨信息(通常仅包括水平内个位数声轨)。
这种特性使得Ambisonics格式的声音能够轻松映射到各种声音阵列上,并对于处理VR、AR中声场旋转问题有着得天独厚的优势。
球谐函数
知道Ambisonics是为了记录和表示声场内所有方向的声音信息,我们很容易的想到可以用球谐函数来作为表示工具。
球谐函数是球坐标空间的一组基函数,可以通过它合成球坐标系中各种各样的函数,非常适用于表示中心点周围的环境信息,例如在图形学中表示环境光照,在地球科学中用于表示地球表面和地球内部的各种物理量,以及本文提到的用于表示声场信息等。
球谐函数公式
球谐函数图示
用球坐标空间的球谐函数组合表示,我们最终能得到一个声音分布r=f(θ,φ),r极径表示声压(声音)强度,(θ,φ)两个角度表示声音源方向。
Ambisonics一阶B格式
如图是某一时刻的声音分布函数,在实际声音的存储中,我们仅需要记录每个球谐函数分量前边的系数就可以了
0.5,0.1,0.07,0.05,0.3
在重构解码时算法会自动匹配分量。
一阶B格式是最简单的Ambisonics格式,它使用W、X、Y、Z四个通道来表示全景360°声音信息。为什么是四个通道?很明显,根据名字来理解,它是使用零阶和一阶球谐函数来表示声音,最高阶是一阶,而在球谐函数表中,零阶有一个分量(表示平均声压),一阶有三个分量(分别表示前后、左右、垂直分量),一共四个分量。
最终,我们可以根这四个分量复原出声场,并将声场映射到各种各样的声音阵列中。
总结
Ambisonics是一种捕捉和重现三维声场的音频技术。
Ambisonics与传统的立体声、环绕声格式的区别在于它是一个球坐标系的函数,能表示空间中所有的声音位置和强度。
Ambisonics一阶B格式利用球谐函数一阶以前的分量来表示声场,w、x、y、z分量分别对应球谐函数Y00、Y-11、Y01、Y11的系数。