语音识别入门笔记

语音识别数学表示:argmax p(W|O)=argmax p(O|W)p(W)
W:输出的文本序列
O:输入的语音波形序列
语音识别两大组成部分:
1:p(O|W),在给定的文本序列下,模型生成语音波形序列的概率
称为声学模型(Acoustic Model) 占据主要的计算任务
2:p(W),表示输出W文本序列的概率
称为语言模型(Language Model)

语音识别的过程:
声波:

预处理(前端处理):
1,首尾端静音切除,减少对后续操作的干扰
2,降噪
3,分帧,一般取20-30MS,分帧后的稳态信息才可以进行信号处理。
在这里插入图片描述
移动窗口实现,每次往前移动10MS进行分帧,交替部分为了保持语音信息的上下文联系

声学特征提取(语音特征):
理解:语音的波形在一维时间上无法进行描述,不能作为输入在模型中进行训练,所以要进行波形的变换(FFT快速傅里叶变换),将其他的参数作为语音特征。

目前最常用的语音特征:MFCC(梅尔倒谱系数)
梅尔频率倒谱系数:将线性频谱映射到基于听觉感知的Mel非线性频谱中,再进行倒谱分析得到特征参数。
过程:
在这里插入图片描述
将普通频率转化到Mel频率的公式:
在这里插入图片描述

Mel滤波:将不统一的频率转化成统一的频率,如果两端语音的Mel频率相差两倍,那么人耳听起来的音调也相差两倍。
在这里插入图片描述
倒谱分析:取对数加逆变换(DCT离散余弦变换),得到一组系数(12个),这组MFCC就是这帧语音的特征,对于一段划分为N帧的语音,那么输入矩阵的大小就是12*N。

神经网络:
RNN模型(循环神经网络recurrent neural network):
处理序列数据,即数据在时间或者次序上具有前后联系,很明显语音信号是具有强烈的前后联系的。
在这里插入图片描述

RNN的正向传播:
在这里插入图片描述

模型的参数训练:反向传播梯度下降算法。
目前使用较多的两种RNN的变形:
LSTM模型(长短时记忆网络),解决RNN前后文关联序列距离太长时引起的梯度消失问题
改进处:增加了3个门运算,“遗忘门”,“输入门”,“输出门”
每个LSTM单元都包括三个输入:上一时刻的单元状态Ct-1、上一时刻的单元输出ht-1,以及当前时刻的输入Xt
在这里插入图片描述
处理机制:
遗忘门:主要计算需要丢弃哪些信息
在这里插入图片描述
在这里插入图片描述
输入门:用于计算哪些信息保存在状态单元中
在这里插入图片描述

在这里插入图片描述
最后由之前得到的遗忘门的输出ft以及上一时刻状态Ct-1的积加上输入门两部分的乘积得到当前时刻的单元状态Ct

在这里插入图片描述
输出门:通过sigmoid函数计算需要输出哪些信息,与当前的状态Ct经过tanh函数后进行乘积得到当前的输出
在这里插入图片描述

总结:从LSTM的网络模型可以看出来,其实LSTM实际上是通过多次累加运算,使得在梯度下降求解时,不会因为链式法则的求导连乘而导致经过sigmoid函数的输出值越来越小直至趋向于0,导致梯度消失的情况。
例如RNN神经网络,他的当前状态计算公式是St=f(Xt,St-1),如果关系距离过远,会导致梯度消失的问题。

GRU模型(门控制循环单元):属于LSTM的一个变形,基于LSTM较为复杂的门结构,改为了只有两个门运算,
分别为更新门和重置门,原理差不多。

损失函数:CTC loss function(Connectionist temporal classification)。。。。。。。??

语言模型:自然语言处理,根据声学模型的输出,给出最大概率的文本输出。
N-gram。。。。?基于RNN的语言模型。。。??

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。在过去的十年中,机器学习帮助我们自动驾驶汽车,有效的语音识别,有效的网络搜索,并极大地提高了人类基因组的认识。机器学习是当今非常普遍,你可能会使用这一天几十倍而不自知。很多研究者也认为这是最好的人工智能的取得方式。在本课中,您将学习最有效的机器学习技术,并获得实践,让它们为自己的工作。更重要的是,你会不仅得到理论基础的学习,而且获得那些需要快速和强大的应用技术解决问题的实用技术。最后,你会学到一些硅谷利用机器学习和人工智能的最佳实践创新。 本课程提供了一个广泛的介绍机器学习、数据挖掘、统计模式识别的课程。主题包括: (一)监督学习(参数/非参数算法,支持向量机,核函数,神经网络)。 (二)无监督学习(聚类,降维,推荐系统,深入学习推荐)。 (三)在机器学习的最佳实践(偏差/方差理论;在机器学习和人工智能创新过程)。本课程还将使用大量的案例研究,您还将学习如何运用学习算法构建智能机器人(感知,控制),文本的理解(Web搜索,反垃圾邮件),计算机视觉,医疗信息,音频,数据挖掘,和其他领域。 本课程需要10周共18节课,相对以前的机器学习视频,这个视频更加清晰,而且每课都有ppt课件,推荐学习。 我和我的团队翻译了部分视频,目前已经翻译完毕,内嵌中英文字幕,推荐使用potplayer。此外,我无偿把字幕贡献给了网易云课堂,他们开了免费课:吴恩达机器学习。 这篇中文笔记,主要是根据视频内容和中文字幕以及ppt来制作,部分来源于网络,如“小小人_V”的笔记,并持续更新。 本人水平有限,如有公式、算法错误,请及时指出,发邮件给我,也可以加我qq。 今日发现这个笔记被下载超过10万次,应该说这个笔记有点用,我发现以前一些翻译小错误,进行了修改,以免误导初学者。 黄海广 2018-3-7 夜
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值