语音识别ASR背后的原理

最新推荐文章于 2025-03-26 18:05:55 发布

Jason_Lee155

最新推荐文章于 2025-03-26 18:05:55 发布

阅读量7.7k

点赞数 20

分类专栏：科普问题与硬件问题文章标签：语音识别人工智能 android

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jason_Lee155/article/details/137961667

版权

本文介绍了语音识别的基本概念，从语音识别的过程、应用领域（如私人场景、车载场景、儿童场景和家庭场景）以及关键技术（VAD、本地上传、信号处理、特征提取、声学模型和语言模型）进行了详细阐述，同时探讨了语音识别的扩展内容，如方言识别、外语识别、语种识别、声纹识别和情绪识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

现在人机语音交互已经成为我们日常生活的一部分，语音交互更自然，大大的提高了效率。

一、什么是语音识别

文字绝对算是人类最伟大的发明之一，正是因为有了文字，人类的文明成果才得以延续。但是文字只是记录方式，人类一直都是依靠声音进行交流，所以人脑是可以直接处理音频信息的，就像你每次听到别人和你说话的时候，你就会很自然地理解，不用先把内容转变成文字再理解。而机器目前只能做到先把音频转变成文字，再按照字面意思理解。

微信或者输入法的语音转文字相信大家都用过，这就是语音识别的典型应用，其实就是把我们说的音频信息转换成文字内容。

语音识别技术（Automatic Speech Recognition）是一种将人的语音转换为文本的技术。

概念理解起来很简单，但整个过程还是非常复杂的，正是由于复杂，对算力的消耗比较大，一般我们都将语音识别模型放在云端去处理。这也就是我们常见的，不联网无法使用的原因。当然也有在本地识别的案列，像输入法就有本地语音识别的包。

将语音转换成文字

二、语音识别的应用

语音识别的应用非常广泛，常见的有语音交互、语音输入。随着技术的逐渐成熟和5G的普及，未来的应用范围只会更大。语音识别技术的应用往往按照应用场景进行划分，会有私人场景、车载场景、儿童场景、家庭场景等，不同场景的产品形态会有所不同，但是底层的技术都是一样的。

1、私人场景

私人场景常见的是手机助手、语音输入法等，主要依赖于我们常用的设备--手机。如果你的手机内置手机助手，你可以方便快捷的实现设定闹钟，打开应用等，大大的提高了效率。语音输入法也有非常明显的优势，相较于键盘输入，提高了输入的效率，每分钟可以输入300字左右。

2、车载场景

车载场景的语音助手是未来的趋势，现在国产电动车基本上都有语音助手，可以高效的实现对车内一些设施的控制，比如调低座椅，打开空调，播放音乐等。开车是需要高度集中注意力的事情，眼睛和手会被占用，这个时候使用语音交互往往会有更好的效果。

3、儿童场景

语音识别在儿童场景的应用也很多，因为儿童对于新鲜事物的接受能力很高，能够接受现在技术的不成熟。常见的儿童学习软件中的跟读功能，识别孩子发音是否准确，这就应用的是语音识别能力。还有一些可以语音交互的玩具，也有ASR识别的部分。

4、家庭场景

家庭场景最常见的就是智能音箱和智能电视了。我们通过智能音箱，可以语音控制家里面的所有电器的开关和状态，通过语音控制电视切换节目，搜索我们想要观看的内容。

手机助手siri的界面

三、语音识别详解

整个从语音识别的过程，先从本地获取音频，然后传到云端，最后识别出文本，就是一个声学信号转换成文本信息的过程。整个识别的过程如下图：

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。