AI智能语音识别算法原理四

小正空间

已于 2024-02-28 10:21:44 修改

阅读量2.5k

点赞数 3

分类专栏：简介文章标签：人工智能语音识别算法

于 2021-04-27 10:01:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/daxiangwusheng/article/details/116191855

版权

简介专栏收录该内容

30 篇文章

订阅专栏

一、神经网络

在这里插入图片描述

当前常用的语音识别框架如下图
在这里插入图片描述

其背后的逻辑是
在这里插入图片描述

在特征提取时采用的神经网络里面的DNN技术

深度神经网络DNN
DNN技术可以分为两种，一种是CNN模型，一种是RNN模型
在这里插入图片描述卷积神经网络 CNN模型

循环神经网络 RNN模型

二、解码器

解码器信息来源于声学模型、词典、语言模型。框图如下：

在这里插入图片描述

2.1 声学模型

常用的声学模型为GMM-HMM，即混合高斯模型-隐马尔科夫模型

HMM模型对时序信息进行建模，在给定HMM的一个状态后，GMM对属于该状态的语音特征向量的概率分布进行建模。

2.2 词典

字典：就是发音字典，中文中就是拼音与汉字的对应，英文中就是音标与单词的对应

用途：

根据声学模型识别出来的音素，在字典中来找到对应的汉字（词）或者单词，用来在声学模型和语言模型建立桥梁，将两者联系起来。

比方如下词语的映射表：
在这里插入图片描述
2.3 语言模型

语言模型是针对某种语言建立的概率模型，是用来计算一个句子的概率的概率模型。

划分以下两种：

2.3.1 N元统计语言模型：N-gram模型、平滑化

请点击输入图片描述（最多18字）

2.3.2 神经网络语言模型：

在这里插入图片描述
与统计语言模型不同的是，神经网络语言模型不通过计数的方法对nn元条件概率进行估计，而是直接通过一个神经网络对其建模求解。

用途：

   1、决定哪一个词序列的可能性更大

   2、已知若干个词，预测下一个词

例子：

1、I went to a party.

 Eye went two a bar tea.

2、你现在在干什么？

 你西安载感什么？

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小正空间 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。