Introduction

1、人类语音非常复杂,同样的人说同一句话话音频也很可能是不一样的。

2、涉及到语言和语音的操作

3、语音到文字是语音识别_ASR过程

4、文字到语音是语音合成_TTS过程(只是简单举一个算法过程的例子)

5、语音到语音过程

(1)语音分离

(2)声音转化,比如柯南

6、我主要不知道的是语音到class的过程。实际使用大概有:分辨说话者(speaker)和分辨唤醒词(keyword spotting)等。

7、对于输入时文字的使用的算法,主要有BERT和他的朋友们,训练集是越来越大的。

8、对于输出为文字的操作

(1)自回归:模型在生成文本时,每一步生成的词或标记(token)都依赖于之前生成的词或标记;模型在生成下一个词时,会将之前生成的所有词作为输入,并基于此进行预测。

(2)非自回归:在生成文本时,各个词或标记的生成是并行进行的,生成的每个词不依赖于之前生成的词;非自回归模型会在同一时间生成整个序列的所有词。

9、文字转化为文字的操作:比如翻译、概括摘要、对话、回答问题。

(1)文法剖析:把文法剖析看做文字到文字

10、其他应用:学习如何学习(让机器学习的算法)

11、语音、文字、影像都可能被攻击

12、人类语言处理中的辨识性ai

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值