说话人识别中的分数规范化（Score Normalization）

最新推荐文章于 2024-05-28 15:38:47 发布

DEDSEC_Roger

最新推荐文章于 2024-05-28 15:38:47 发布

阅读量565

点赞数 1

分类专栏：语音技术文章标签：人工智能深度学习语音识别音频

本文链接：https://blog.csdn.net/m0_46324847/article/details/128602129

版权

23 篇文章 31 订阅

订阅专栏

在说话人辨认任务中，我们会将待验证的话语 $t$ 与已注册的话语集合 $\left \{ e_1,e_2,...,e_n \right \}$ ，计算相似度，得到 $\left \{ s(e_1,t),s(e_2,t),...,s(e_n,t) \right \}$ ，其中的最大值 $s(e_i,t)$ ，会与阈值 $t h$ 比较
$\left\{\begin{matrix} s(e_i,t) \ge th,t属于说话人i \\ s(e_i,t) < th,t不属于任何一个说话人 \end{matrix}\right.$
对于说话人验证任务，等价于说话人辨认任务中， $n = 1$ 的情形
注意到，上述的阈值 $t h$ 是全局统一的，而且常常是在说话人验证任务中，暴力搜索出使得 $EER$ 或 $min D CF$ 最小的阈值作为 $t h$
但是，实际的任务常常是说话人辨认任务，不同的说话人，其对应的话语的区分度是不一样的，比如说：有的人的声音就是比较特别，而有的人的声音则比较大众化，此时采用全局统一的阈值进行说话人辨认则会不够合适
此外，阈值 $t h$ 的选定，通常是在测试集中，进行暴力搜索得到的，如果说话人识别系统在运行时，面对的数据分布与测试集不一致，比如说测试集是英语，运行时是中文；测试时录音设备是录音棚，运行时录音设备是有线电话、或网络通话，此时的最佳阈值会随语种和录音设备的变化而发生偏移

针对上述问题，人们提出了分数规范化方法，分数规范化的目的可以理解为领域自适应（Domain Adaptation），也就是更好地利用训练集的数据，使模型泛化到目标领域的数据中。简单而言就是，对于计算出的相似度分数，会先经过一个规范化操作，即：
$s(e,t)_{norm}=\frac{s(e,t)-\mu(S)}{\sigma(S)}$
其中， $S$ 是用于计算统计量 $\mu$ 和 $\sigma$ 的一系列相似度分数。分数规范化后，仍然采用暴力搜索，找到使得 $EER$ 或 $min D CF$ 最小的阈值作为 $t h$
要得到 $S$ ，需要先采样出一系列话语，论文中常称为 $co h or t$ ， $co h or t$ 是从训练集（为了检测出不同规范化方法的泛化能力，不能使用测试集进行分数规范化），采样出与 $e$ 不同的 $N$ 个说话人，每个说话人各取一个嵌入码 $\varepsilon_i$ ， $\varepsilon_i$ 可以是该说话人所有嵌入码的均值，从而 $co h or t$ 可以记为 $\epsilon=\left \{ \varepsilon_1,\varepsilon_2,...,\varepsilon_N \right \}$
常见的规范化方法有Z-norm、T-norm、S-norm和AS-norm，主要区别在于如何利用 $co h or t$ ，进行相似度的计算，得到 $S$
下面基于说话人验证对各方法进行描述，如果要推广到说话人辨认，只需要对每个注册话语 $e_i$ 都进行同样的操作即可

利用 $co h or t$ 进行相似度计算的方法为：将 $e$ 与 $co h or t$ 中的每一个嵌入码计算相似度，即
$S_e=\left \{ s(e,\varepsilon_1),s(e,\varepsilon_2),...s(e,\varepsilon_N) \right \}$
利用 $S_e$ 进行规范化
$s(e,t)_{z-norm}=\frac{s(e,t)-\mu(S_e)}{\sigma(S_e)}$

利用 $co h or t$ 进行相似度计算的方法为：将 $t$ 与 $co h or t$ 中的每一个嵌入码计算相似度，即
$S_t=\left \{ s(t,\varepsilon_1),s(t,\varepsilon_2),...s(t,\varepsilon_N) \right \}$
利用 $S_t$ 进行规范化
$s(e,t)_{t-norm}=\frac{s(e,t)-\mu(S_t)}{\sigma(S_t)}$

利用 $co h or t$ 进行相似度计算的方法与Z-norm和S-norm一致，实际上，S-norm就是Z-norm和S-norm的算术平均
$\begin{aligned} s(e,t)_{s-norm}&=\frac{1}{2} (s(e,t)_{z-norm}+s(e,t)_{t-norm}) \\ &=\frac{1}{2} (\frac{s(e,t)-\mu(S_e)}{\sigma(S_e)} + \frac{s(e,t)-\mu(S_t)}{\sigma(S_t)}) \end{aligned}$
之所以叫Symmetric Normalization，是因为 $s(e,t)_{s-norm}=s(t,e)_{s-norm}$

注意到上述的三种规范化方法，都完全利用了 $co h or t$ ，即得到的相似度分数序列 $S$ 的长度，与 $co h or t$ 的长度一致
同时，对于每个已注册的话语 $e$ 和待验证的话语 $t$ ，都采用了同样的 $S$ ，也就是说，对于那些与 $e$ （或 $t$ ）相比，本来就区分度很大的说话人，也参与了分数规范化，这是次优的
AS-norm在 $co h or t$ 中选取了，与 $e$ 相似度分数最高的 $\text{-} n$ 个嵌入码，组成 $\epsilon_e^{top}$ ，以及与 $t$ 相似度分数最高的 $\text{-} n$ 个嵌入码，组成 $\epsilon_t^{top}$
然后将 $e$ 与 $\epsilon_e^{top}$ 中的每一个嵌入码计算相似度，得到 $S_e(\epsilon_e^{top})$ ，以及将 $t$ 与 $\epsilon_t^{top}$ 中的每一个嵌入码计算相似度，得到 $S_t(\epsilon_t^{top})$
最终的规范化还借鉴了S-norm
$\begin{aligned} s(e,t)_{as-norm}&=\frac{1}{2} (\frac{s(e,t)-\mu(S_e(\epsilon_e^{top}))}{\sigma(S_e(\epsilon_e^{top}))} + \frac{s(e,t)-\mu(S_t(\epsilon_t^{top}))}{\sigma(S_t(\epsilon_t^{top}))}) \end{aligned}$
$\text{-} n$ 取值200~500都是可行的，常取300
AS-norm的动机可以理解为：要提高一个嵌入码的区分度，就要找到使得该嵌入码最不具有区分度的一个 $co h or t$ ，然后调整该嵌入码，使得其在这个 $co h or t$ 中也变得可区分，所谓调整指的是利用这个 $co h or t$ 的统计量，对该嵌入码进行规范化

关注