输出一段文字,我们将其想成是N个token,其中token有V种。 输出的部分: Token 音素(phoneme),需要有语言学知识,来标出对应词典 书写的基本单位,不需要lexicon,使用Graphme风险较大。 语素(Morpheme) 输入的部分: 我们需要多少资料才足够训练一个语音辨识的系统?