【腾讯TVP—AI语音语义·实践全解析】摘要

一、卢鲤 微信智聆负责人 分享《语音识别理论和实践》

1、语音识别发展

1.1 传统Hybrid系统:从声音片段到发音单元的映射

具有明显层次结构,声学模型–词典–语言模型–解码器,70%性能都是由声学模型决定。
声学模型:从声音片段到发音单元的映射。具有实现HMM-GMM声学模型表示方法;混合高斯模型根据不同权重混合可以近似任何模型;
2010-至今,和深度学习联姻:一是硬件设施发展提供了基础,二是互联网音频数据越来越多,三是深度学习在语音识别上的应用。
DNN比GMM性能提高了20%,TDNN上下文,LSTM提高相对15%,
2017年nlp出现上下文建模Transformer模型,比LSTM再次提高10%,本质原因是引入注意力机制

1.2 端到端系统:输入声音输出文字

门槛低、需要数据量大
CTC、LAS、RNN-T
encode-decode,输入第一字预测第二字,第二个字的embedding和前面的embedding一起预测

1.3 小结

Hybrid 系统使用灵活,拟合力弱
端到端数据拟合力强,灵活度低

2、微信智聆平台

腾讯自主研发语音技术品牌
专注于语音识别,语音合成,声纹认证等语音人工智能技术的研发

2.1 服务对象

一天请求量30亿次
C端

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值