语音识别笔记

本文介绍了卷积神经网络(CNN)在语音识别中的作用,包括时频域和时域上的卷积。CNN通过局部连接性和参数共享,有效处理语音信号的局部相关性和多样性。直接使用原始波形信号的卷积模型也能取得良好效果,尤其是在抗噪鲁棒性方面。深度卷积神经网络,如CLDNN和Deep-Speech模型,通过多层卷积层提取声学特征,提高了识别准确性。堆叠的卷积层有助于从噪声中提取有用信息,增强了模型的鲁棒性。
摘要由CSDN通过智能技术生成

1、语音基础

2、模型结构

2.1 卷积神经网络

1 时频域上的卷积
相比于二维的图像输入,语音信号往往是一维时序信号,直接使用一维时序信号建模效果差。因此要在网络的输入中也采用经过处理的帧级别特征,比如MFCC特征或者FBANK特征。
如果我们利用相邻的语音帧信息,整合成二维语谱图作为输入,则此时的输入输出与图像识别任务很像,就可以利用二维卷积操作对输入的语谱图特征进行处理。在卷积神经网络语音识别系统中,通常会采用整合了相邻帧的二维语谱特征图作为输入。

相比于前馈神经网络语音识别系统,卷积神经网络有如下两个优势:

  • 语音的语谱图在时间维度和频率维度上都有着很强的局部相关性,而卷积神经网络由于其局部连接的特性,能够更好地对这种局部相关性建模。对于前馈神经网络来说,尽管每两层间所有的神经元都相互连接,却很难对输入特征图的局部相关性建模。
  • 基于卷积神经网络的神经元是局部且稀疏连接的,而且卷积核的参数是针对输入特征图的每一个元素共享的,卷积神经网络对于输入和输出是等变的。具体来说,在处理一维时间数据时,时间维度的平移并不会影响卷积操作的整体结果。同样,对于频率维度的变化,比如不同的说话人或是不同的说话风格所带来的频率维度的平移,卷积神经网络也能够更好地提取出不受这些变化影响的语音特征。

现实生活中的语音信号,往往是非线性的、时变的、多样的,会受到各种各样因素的影响而呈现出很大的不同。具体来说,说话人自身的一些特性比如性别、年龄、所处环境下的噪声和混响,以及拾音设备引起的信道差异等,都会影响语音信号的声学建模。依据上述两个卷积神经网络的优势,可以利用卷积的不变性来减少语音信号本身的多样性带来的问题,卷积神经网络可以更好地提取信号的声学特征,从而获得更好的语音识别效果。

2 时域上的卷积
尽管基于频率维度的卷积在实际的语音识别任务应用中取得了不错的效果,但这种基于语谱特征图的卷积结构缺乏信号层面的物理意义。以图像为例,在输入图像上做的卷积操作可以被视为滤波器组的滤波操作。图像的长和宽属于一个维度的两个方向,而语谱特征图的长和宽分别表示输入的时间维度和频率维度。在语谱图上的卷积操作与在图像上的卷积操作不同,难以用信号层面的物理意义来解释。

接下来,我们会介绍基于时域信号的卷积方法,即以原始波形(Raw Waveform)信号为输入的卷积神经网络。
一直以来,语音识别系统都会先对信号进行分帧处理,将其转换到时频域提取声学特征,例如MFCC、FBANK等,再进行声学建模。

  • 一方面因为在转换到时频域之后,语音信号的特点更加明显,能够提取到对应于其声学本质的特征;
  • 一方面因为原始语音信号波形的语义信息往往和频率和相位的变化相关,而这些变化在时域层面十分不显著,直接对时域进行建模相对困难。

然而,现在广泛采用的一些特征提取方法会舍弃一些低能量的部分,也就是说,输入给声学模型的信息是不完整的。这样人为的特征提取结果不一定能够提供最适合声学建模的特征,因此,直接从时域学习,以语音信号波作为输入是一种有效的替代方案。

传统的特征提取方法,会转换到时频域提取声学特征,相当于在原始信号上进行的滤波操作,如FBANK特征就是滤波器组所得到的不同特征值的特征。如前文所述,对于原始的一维输入语音信号而言,卷积操作等同于滤波,不同的卷积核等同于不同的滤波器。因此,可以用卷积神经网络替代传统的滤波器组的特征提取

对于输入的时域语音信号,不同的卷积核相当于一组滤波器。经过时域样本点的滤波(卷积)与池化操作,可以得到每一帧的特征向量,这与传统信号处理方法得到的特征向量类似,可以用于之后的声学建模部分。
一些研究结果表明,使用卷积神经网络直接对时域语音信号建模,所构建的语音识别系统的性能能够与传统的基于信号处理方法进行特征提取再构建声学模型的语音识别系统相媲美,甚至在某些条件下能获得更好的性能。

Google的CLDNN模型,将卷积神经网络与循环神经网络结合,利用卷积神经网络更好地提取声学特征,再利用循环神经网络对这些帧级别的声学特征进行处理和建模,将网络逐层堆叠,能够获得很好的识别准确率。百度提出的Deep-Speech模型结构,应用VGGNet和包含残差连接的卷积层结构,也显著降低了错误率。
在结构上,深层神经网络通常指多个卷积块的堆叠。卷积块由卷积层、激活函数层和池化层组成。不同于浅层的卷积神经网络,深层网络往往采用更小的卷积核,比如3×3或者4×4。同时网络的整体设计多呈现出金字塔形结构,随着输入的前向传播,每层输出特征图的通道数逐渐增加,并最终被输送到末端堆叠的全连接层结构中。同时,相比于浅层卷积神经网络,输入特征图的维度可以在频率维度和时间维度上扩展,模型可以更好地处理更多更全面的输入信息。

在这里插入图片描述
上图给出了一种深度卷积神经网络的结构示例,其具有10层卷积层与5层池化层,每两层卷积层后会接一层池化层,最后有4层全连接层。所有的卷积核大小都为3×3,通道数从64逐渐增长到256。
尽管在结构上没进行有针对性的设计,深层卷积神经网络在抗噪鲁棒语音识别任务中仍然表现出了很好的性能[348, 349, 355。正如前面提到的,由于卷积神经网络对于输入输出的等变性,它能够更好地建模在时间维度或者是频率维度上发生扰动的语音信号。而堆叠的多层卷积层能够更好地从输入数据中提取声学信息,从而达到降噪的目的。
通常认为,深层卷积神经网络的前几层卷积,能够起到抗噪提升鲁棒性的作用。具体来说,堆叠的卷积层从带噪的语音特征中提取所需要的抗噪声学特征,再传递给后层做分类。深度卷积神经网络对于不同的噪声类型如加性噪声、信道失配及回声都有很好的抗噪鲁棒性。

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Mind 语音识别模块是一种基于人工智能技术的语音识别系统。它通过将人类语音转换为可理解的文本或命令,实现人机交互。Mind 语音识别模块具有以下特点: 1. 高度准确性:Mind 语音识别模块经过训练和优化,能够准确识别并转换语音信息,提高交互的效率和准确性。 2. 多语言支持:Mind 语音识别模块能够支持多种语言的识别,包括中文、英文、法文等,满足不同用户的需求。 3. 实时处理:Mind 语音识别模块具备快速处理语音信息的能力,能够实时转化语音为文本或命令,提供即时的反馈。 4. 非线性识别:Mind 语音识别模块可以识别语音中的非线性变化,如音调、语速等变化,提高对不同语音特点的适应性。 5. 抗噪能力强:Mind 语音识别模块具备较强的抗噪能力,可以在环境嘈杂或有背景音的情况下,准确地识别用户的语音指令。 6. 灵活性和扩展性:Mind 语音识别模块具备丰富的API接口和功能,可以与其他应用或软件进行集成,实现更广泛的应用场景。 总而言之,Mind 语音识别模块通过将语音转换为文本或命令,实现了语音与机器之间的交互,提供了更自然、便捷的用户体验。它在多语言支持、实时处理、非线性识别、抗噪能力等方面具备优势,具有广泛的应用前景和发展潜力。 ### 回答2: Mind语音识别模块是一种能够将人类语音转化为可识别和处理的信号的技术。这个模块以人的声音作为输入,并将其转化为计算机可以理解的数据。 Mind语音识别模块利用了语音信号处理、机器学习、自然语言处理等多个领域的技术。它的工作原理是通过将语音信号转化为频谱,并利用机器学习算法将该频谱与事先训练好的模型进行匹配,从而得到最接近的结果。 该模块不仅可以识别不同的语言,还可以识别语音中的音调、语速、重音等语音特征。它能够高效地处理实时语音输入并提供准确的识别结果。而且,随着机器学习算法和硬件的不断发展,Mind语音识别模块的准确度和性能也在不断提升。 Mind语音识别模块具有广泛的应用领域。例如,在智能助手中,它可以实现语音控制和语音搜索功能;在智能手机和智能音箱中,它可以实现语音输入和语音命令操作;在自动驾驶领域,它可以用于语音控制车辆等。它的应用范围还包括语音翻译、语音助手、语音识别笔记本等。 总之,Mind语音识别模块是一种先进的技术,它以人的语音为输入,通过机器学习和信号处理算法将其转化为计算机可以理解的数据,并可以用于各种领域的应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值