人类语言处理(注重speech任务)== 自然语言处理(偏重Text任务)
处理的对象:Text和Speech(语音)
Speech processing is not only speech recognition。
audio:
1 second has 16k sample points, and each point has 256 possible values.
所以没有人可以说同一段话两次
本课程聚焦近3年的发展,探讨在“硬train一发”(把数据集丢进深度学习网络训练就能解决问题)之后的进展。
nlp task
6 kinds
- ASR,automatic speech recognition,使用的seq2seq(end-to-end)不同于机器翻译的seq2seq模型。语音辨识
- Text-to-Speech Synthesis 语音合成
- speech separation,一个场景下多个人说话,机器如何分辨不同人的语音。
- voice conversion,变声器,A的声音转出B的声音.
unsupervised voice conversion,and only one utterance from each speaker(one-shot learning)
- 1.speaker recognition,听声音辨别说话者 2.Keyword spotting,检测关键句(唤醒词:Hey Siri)
- Text generation,used RNN,bert… its task include:Translation,Summarization,Chat-bot,Question Answer(this class focus)…
其他领域和技术
- Meta learning
- Learning from Unpaired Data,转换
- Knowledge Graph,将学到的知识再放入模型里面
- Adversarial Attack,检测是否为合成语音