1、人类语音非常复杂,同样的人说同一句话话音频也很可能是不一样的。
2、涉及到语言和语音的操作
3、语音到文字是语音识别_ASR过程
4、文字到语音是语音合成_TTS过程(只是简单举一个算法过程的例子)
5、语音到语音过程
(1)语音分离
(2)声音转化,比如柯南
6、我主要不知道的是语音到class的过程。实际使用大概有:分辨说话者(speaker)和分辨唤醒词(keyword spotting)等。
7、对于输入时文字的使用的算法,主要有BERT和他的朋友们,训练集是越来越大的。
8、对于输出为文字的操作
(1)自回归:模型在生成文本时,每一步生成的词或标记(token)都依赖于之前生成的词或标记;模型在生成下一个词时,会将之前生成的所有词作为输入,并基于此进行预测。
(2)非自回归:在生成文本时,各个词或标记的生成是并行进行的,生成的每个词不依赖于之前生成的词;非自回归模型会在同一时间生成整个序列的所有词。
9、文字转化为文字的操作:比如翻译、概括摘要、对话、回答问题。
(1)文法剖析:把文法剖析看做文字到文字
10、其他应用:学习如何学习(让机器学习的算法)
11、语音、文字、影像都可能被攻击
12、人类语言处理中的辨识性ai