【腾讯TVP—AI语音语义·实践全解析】摘要

最新推荐文章于 2024-01-18 02:09:41 发布

fionajunjun

最新推荐文章于 2024-01-18 02:09:41 发布

阅读量1.4k

点赞数

分类专栏：语音语义文章标签：腾讯人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fionajunjun/article/details/108548867

版权

该分享涵盖了语音识别的发展，包括传统Hybrid系统和端到端系统的对比，重点介绍了微信智聆平台的语音技术，如TLCBLSTM网络和流式场景解决方案。此外，还讨论了企业AI的需求、腾讯云AI产品及其在合同审核、在线学习和方言识别等场景的应用。同时，指出了AI在产业落地中面临的挑战和解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、卢鲤微信智聆负责人分享《语音识别理论和实践》

1、语音识别发展

1.1 传统Hybrid系统：从声音片段到发音单元的映射

具有明显层次结构，声学模型–词典–语言模型–解码器，70%性能都是由声学模型决定。
声学模型：从声音片段到发音单元的映射。具有实现HMM-GMM声学模型表示方法；混合高斯模型根据不同权重混合可以近似任何模型；
2010-至今，和深度学习联姻：一是硬件设施发展提供了基础，二是互联网音频数据越来越多，三是深度学习在语音识别上的应用。
DNN比GMM性能提高了20%，TDNN上下文，LSTM提高相对15%，
2017年nlp出现上下文建模Transformer模型，比LSTM再次提高10%，本质原因是引入注意力机制

1.2 端到端系统：输入声音输出文字

门槛低、需要数据量大
CTC、LAS、RNN-T
encode-decode，输入第一字预测第二字，第二个字的embedding和前面的embedding一起预测

1.3 小结

Hybrid 系统使用灵活，拟合力弱
端到端数据拟合力强，灵活度低

2、微信智聆平台

腾讯自主研发语音技术品牌
专注于语音识别，语音合成，声纹认证等语音人工智能技术的研发

2.1 服务对象

一天请求量30亿次
C端

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。