语音后验图特征PPG(Phonetic Posteriorgram)特征简介

本文链接：https://blog.csdn.net/qq_41562704/article/details/118280742

PPG(语音后验概率)是一种时间对类别的矩阵，表示每个时间帧中各语音类别的后验概率。常用于说话人无关的语音识别任务中，提取自目标说话者的语音。本文介绍了PPG的定义、提取方法及应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近有个数字人的项目，接触了下后验图PPG这个特征。

简介

PPG的全称是 phonetic posteriorgrams，即语音后验概率，PPG是一个时间对类别的矩阵，其表示对于一个话语的每个特定时间帧，每个语音类别的后验概率。单个音素的后验概率作为时间的函数称为后验轨迹。

一般来讲是从目标说话者的语音中，使用与说话者无关的自动语音识别(SI‑ASR)系统来提取PPG。提取到的PPG用作映射不同的说话者之间的关系。PPG包括与时间范围和语音类别范围相对应的值集合，该语音类别对应于音素状态。

以[2]中的PPG特征图为例，横坐标表示时间，纵坐标表示音素类别，每个坐标表示在给定时间点出现这个音素的后验概率大小，颜色越深，概率越大。

总结

状态级和帧级语音段可以在不同的语言中共享，PPG作为一种帧级特征是语言无关的。而PPG是从ASR任务中提取出来的，ASR是说话人无关，PPG也是一种说话人无关的特征。一般是在说话人无关语音识别任务上进行训练。

目前多数PPG提取模型基于DNN-HMM，GMM，也有用SMLP，常用的是Kaldi工具搭建AI-ASR系统。常用的数据集包括：英文数据集：LibriSpeech，TIMIT，WSJ；中文数据集：AI-SHELL

参考文献

[1] Huang H , Wu Z , Kang S , et al. Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking Head Generation Using Phonetic Posteriorgrams[J]. 2020.

[2] Hazen T J , Shen W , White C . Query-by-example spoken term detection using phonetic posteriorgram templates[C]// IEEE Workshop on Automatic Speech Recognition & Understanding. IEEE, 2009.

[3] Kintzley K , Jansen A , Hermansky H . Event Selection from Phone Posteriorgrams Using Matched Filters[C]// INTERSPEECH 2011, 12th Annual Conference of the International Speech Communication Association, Florence, Italy, August 27-31, 2011. DBLP, 2011.

[4] Jun L U , Yang J A , Wang Y . An improved point process models for spotting keywords in continuous speech[J]. Journal of Circuits and Systems, 2013.

[5] Sivaram G , Hermansky H . Multilayer perceptron with sparse hidden outputs for phoneme recognition[C]// IEEE International Conference on Acoustics. IEEE, 2011.

[6] Sun L , Li K , Hao W , et al. Phonetic posteriorgrams for many-to-one voice conversion without parallel data training[C]// 2016 IEEE International Conference on Multimedia and Expo (ICME). IEEE, 2016.

[7] Mohammadi S H , Kim T . One-Shot Voice Conversion with Disentangled Representations by Leveraging Phonetic Posteriorgrams[C]// Interspeech 2019. 2019.

[8] Liu S , Zhong J , Sun L , et al. Voice Conversion Across Arbitrary Speakers Based on a Single Target-Speaker Utterance[C]// Interspeech 2018. 2018.

[9] Zhou Y , Tian X , Xu H , et al. Cross-lingual Voice Conversion with Bilingual Phonetic PosteriorGram and Average Modeling[C]// International Conference on Acoustic, Speech and Signal Processing (ICASSP). 2019.

[10] Cao Y , Liu S , Wu X , et al. Code-Switched Speech Synthesis Using Bilingual Phonetic Posteriorgram with Only Monolingual Corpora[C]// ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.

[11] Lu H , Wu Z , Li R , et al. A Compact Framework for Voice Conversion Using Wavenet Conditioned on Phonetic Posteriorgrams[C]// ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019.