本文是读书笔记。个人比较浅显的理解,其中有一些专业词汇也是个人自己的翻译,如果有不对的希望大家指正。
来自论文《An overview of text-independent speaker recognition: From features to supervectors》的第一章节和第二章节。
一 引言
说话人识别简介:也叫做声纹识别,通过声音识别说话的人是谁。(注意跟语音识别的区别)
说话人识别的可行性:
1、物理层面(先天因素):每个人的声道形状,咽喉(larynx)尺寸等发声器官都是不一样的。
2、心理层面(后天因素):每个人的说话习惯是不同的,例如重音、节奏、语气、发音模式、口头禅等。
说话人识别的分类:文本无关和文本相关。(其中文本无关的说话人识别难度更大)
文本无关(text-independent):识别与说话的内容无关(即不管说话内容是什么,都可以识别出说话人&