一、语音处理比文字处理样本数多很多(T>>N)
二、token种类
1、phoneme:发音的具体单位,可以类似为音标,早期最常用
(1)lexicon:符点,记载了文字和phoneme之间的关系
2、grapheme:书写的基本单位
(1)英文单词,N为长度,V为字符集数量,这里的+是加上了标点符号和空格。
(2)中文句子
3、word(几乎没有办法计算V的大小)
4、morpheme:最小的有意义的单元(比如词根),比使用word少,多于使用grapheme:需要语言学家或统计学家得出。
5、bytes:非常具有独立性
6、utf-8
7、占比及发展
三、语音+不同算法的应用:语音识别、翻译、目的性分类、空位填充
四、声学特征
1、读取框25ms,每次移动大小10ms 得出一个feature
2、样本点个数十分大量,维度也有不同的选择方式
2、声音信号通过各个算法获得的不同结果
3、发展趋势及论文中使用占比
4、文字及声学样本数目对比
五、模型使用趋势