深度学习--语音识别
文章平均质量分 54
尘封的记忆0
今天你选择我,明天还你一个完美的作品!!
展开
-
总结一下各大手机网络类型
1、CDMA电信3G的网络模式。2、GSM是通用的移动联通电信2g模式。3、WCDMA是联通3G的网络模式。4、TD—SCDMA是移动3G。如果有TD-LTE或者FDD-LTE,则证明支持4g网络。原创 2016-03-23 18:12:34 · 2571 阅读 · 0 评论 -
语音学习笔记9------Matlab R2015a实现BP神经网络的嗓音识别
本来博主应该要搞卷积神经网络的,但是由于博主是这方面的小白,都是从0开始的,所以怕一口吃下去咽死,还是先从BP神经网络学起,后面的博文会陆陆续续推出实现卷积神经网络的嗓音识别的。1.1.1 BP 神经网络概述BP 神经网络是一种多层前馈神经网络,该网络的主要特点是信号前向传递,误差反向传播。在前向传递中,输入信号从输入层经隐含层逐层处理,直至输出层。每一层的神经元状态只影响下一层神原创 2017-03-12 21:32:53 · 6928 阅读 · 2 评论 -
语音学习笔记10------如何利用Deep CNN大幅提升识别准确率?
近日,百度将 Deep CNN 应用于语音识别研究,使用了 VGGNet ,以及包含 Residual 连接的深层 CNN 等结构,并将 LSTM 和 CTC 的端对端语音识别技术相结合,使得识别错误率相对下降了 10% (原错误率的 90%)以上。 机器之心对百度语音技术部识别技术负责人,同时也是 Deep Speech 中文研发负责人李先刚博士进行了独家专访,李先刚博原创 2017-03-14 20:43:28 · 10629 阅读 · 0 评论 -
语音学习笔记11------卷积神经网络CNN一些重点知识
1.常用的非线性激活函数: sigmoid、tanh、relu等等,前两者sigmoid/tanh比较常见于全链接层,后者relu常见于卷积层。这里先简要介绍下最基础的sigmoid函数(btw,在本博客中SVM那篇文章开头有提过)。 sigmoid的函数表达式如下 其中z是一个线性组合,比如z可以等于:b +* + *。通过代入原创 2017-03-14 20:59:56 · 1042 阅读 · 0 评论 -
语音学习笔记12------直观理解深度学习与卷积神经网络
总结些心得,写一下认识。1.深度学习的发展BP浅层神经网络早在20世纪80年代末期就已掀起了基于统计模型的机器学习热潮,只是BP只有一个隐层,人们对于bp没有很完整的理论推导而且调参问题不少,这样深度神经网就被搁置了。相比而言,20世纪90年代,各种各样的浅层机器学习模型相继被提出,例如支撑向量机(SVM,Support Vector Machines)、 Boosting、最原创 2017-03-14 21:07:45 · 1950 阅读 · 0 评论 -
语音学习笔记13------谈谈斯坦福大学卷积神经网络之反向传播
斯坦福大学课程原文链接:http://cs231n.github.io/optimization-2/ 介绍动机 在这个部分我们通过一些“直觉”来理解反向传播,也就是一种使用链式(求导)法则递归地计算梯度表达式的方法。理解其中的精妙之处非常重要,帮助理解,高效地开发,设计,调试神经网络。问题陈述 前面学到的核心问题是:我们有一个函数f(x),其中x是一个输入向量,我们希望计原创 2017-03-14 21:10:44 · 766 阅读 · 0 评论 -
语音学习笔记14------卷积神经网络CNN参数说明
由于神经网络中有不同的层结构,不同类型的层又有不同的参数,所有就根据Caffe官网的说明文档做了一个简单的总结。1. Vision Layers1.1 卷积层(Convolution)类型:CONVOLUTION例子layers { name: "conv1" type: CONVOLUTION bottom: "data"原创 2017-03-14 21:15:45 · 1606 阅读 · 0 评论 -
matlab调试卷积深度置信网络CDBN-master的时候出现crbm_forward2D_batch_mex没法识别(解决)
今天帮群里的一个群友调matlab代码,CDBN,卷积深度置信网络,他说的是这个错误改了好几天都没法改,其实就是matlab如何调用c语言的问题,挺简单的。下面说说我的做法和如何在matlab中调用c语言的问题。有一个通俗的比喻, 如果程序设计语言是车,那么C 语言就是全能手, C十十语言是加强版的C 语言, MATLAB是科学家用来完成特殊任务的工具。作为使用MATLAB 的科学家和原创 2017-05-04 14:24:03 · 2225 阅读 · 7 评论 -
深度神经网络算法--资料视频代码全套卖,发了EI和SCI,博主担保(CNN,DBN,CDBN,DNN等)
大家好,走过路过不要错过,想系统地学习深度神经网络算法吗?想发高质量文章吗?还在为没有代码没有理论知识发愁吗?还怕毕业不了吗?不用怕了,现在博主推出自己的家当了,有兴趣的加博主qq:1274323974...原创 2019-09-04 15:46:59 · 1915 阅读 · 0 评论 -
14种模型设计帮你改进你的卷积神经网络(CNN)
摘要: 这14 种原创设计模式可以帮助没有经验的研究者去尝试将深度学习与新应用结合,对于那些没有机器学习博士学位的人来说是一个很好的起点。自2011年以来,深度卷积神经网络(CNN)在图像分类的工作中的表现就明显优于人类,它们已经成为在计算机视觉领域的一种标准,如图像分割,对象检测,场景标记,跟踪,文本检测等。但,想要熟练掌握训练神经网络的能力并不是那么容易。与原创 2017-10-20 15:51:39 · 1669 阅读 · 0 评论 -
卷积神经网络的缺点
(1)效果好是因为仿生学,缺点是无法扩展到平面视觉以外的地方吧。(2)缺点一:实现比较复杂。缺点二:训练所需时间比较久。(3)不是单一算法,不同的任务需要单独训练(4)世界(物理空间、解空间等)是连续且局部平坦的+规律/特征具有时空局部平移不变性,即世界存在局部平移不变的统计规律举个例子:在地球表面某局部画三角形,发现内角和总是等于180,并且随便跑到地球的哪里都是如此,但是如果你原创 2018-01-12 15:16:20 · 10862 阅读 · 2 评论 -
个人学习卷积神经网络的疑惑解答
以下是我自己在学习CNN的时候遇到的一些困惑,以及查阅一些资料后得到的一些答案。第一个问题:为什么不用BP神经网络去做呢?1.全连接,权值太多,需要很多样本去训练,计算困难 • 应对之道:减少权值的尝试,局部连接,权值共享 卷积神经网络有两种神器可以降低参数数目。 第一种神器叫做局部感知野,一般认为人对外界的认知是从局部到全局的,而图像的空间联系也是局部的像素原创 2018-01-12 15:20:14 · 782 阅读 · 0 评论 -
matlab画sigmoid函数和其一阶倒数
最近在做神经网络CNN的仿真,发现matlab中竟然没有直接对激活函数sigmoid的实现,其实也是非常简单,但是由于matlab不是很常用,于是乎就有了这个,我估计很多网友都会遇到,写这个是为了方便大家吧。x=-10:2:10;y=1./(1+exp(-x));plot(x,y);一定要用点除‘./’,因为是矩阵运算,所以要把纬度保持一致。运行结果如下:该sigmoid函数的一阶函数为:代码...原创 2018-03-03 22:18:27 · 9698 阅读 · 0 评论 -
在matlab中如何将图片(png和jpg)转成mat格式
在这里就要介绍两个函数了,具体的可以在matlab里面的参考,一个是imread、imwrite和imshow函数,这几个函数看了以后基本就可以明白了,具体的也很简单。比如 I = imread('C:\Users\Administrator\Desktop\patches11.jpg'); save I.mat不懂的可以加我的QQ群:522869126(语音信号处理) 欢迎你的到来哦,看了博文...原创 2018-03-22 21:34:43 · 22294 阅读 · 2 评论 -
matlab画折线图
a=[9.60,7.70,8.30,8.20,7.50,9.10,8.10,7.50,9.10,8.40,8.20,7.90,8.60,7.00,8.90,8.80,8.30,8.20,8.50,8.80]; %a数据y值 b=[9.65,7.11,7.83,8.80,7.40,9.54,7.96,7.33,8.87,8.61,8.06,8.34,8.86,7.28,9.13,8.82,8.2...原创 2018-05-20 17:46:56 · 3543 阅读 · 0 评论 -
语音学习笔记8------Matlab R2015a常用快捷键
在命令窗口(Command Window)中: 1) 【上、下键】――切换到之前、之后的命令,可以重复按多次来达到你想要的命令 2) clc――清除命令窗口显示的语句,此命令并不清空当前工作区的变量,仅仅是把屏幕上显示出来的语句清除掉 3) clear――这个才是清空当前工作区的变量命令,常用语句clear all来完成原创 2017-02-26 21:42:44 · 477 阅读 · 0 评论 -
语音学习笔记7------Matlab R2015a画出的图形背景白色化
所有函数图请全部采用黑色线条,无底色,以保证清晰。以不同颜色区别的曲线请改为以不同线型区分。横纵坐标轴标有量纲的需在横纵轴居中位置注明量符号及单位。如图1所示。无量纲图请在坐标轴末端标注量符号。电路原理图请去除底色及背景网格,元器件请采用GB/T 4728中规范的图形符号。电阻、电容、电感等元器件标称值请标注完整量值及单位(如“5 kΩ”不能标为“5 k”),数值及单位间留出一个字符的空隙原创 2017-02-10 20:28:29 · 1228 阅读 · 0 评论 -
语音识别的特征提取中的相关参数
3.1.声强和声强级 在物理学中,把单位时间内通过垂直于声波传播方向的单位面积的平均声能,称为声强。声强用I表示,单位为瓦/平米。实验的研究表明,人对声音强弱的感觉并不是与声强成正比,而是与其对数成正比的。所以一般声强用声强级来表示。 SIL=10lg[I/I’]=10lg原创 2016-11-17 21:49:03 · 14205 阅读 · 0 评论 -
语音识别的基本过程
计算机语音识别过程与人对语音识别处理的过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为3部分:1、语音特征提取:其目的是从语音波形中提取出岁时间变化的语音特征序列2、声学模型与模式匹配:声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征与声学模型(模式)进行匹配与比较,得到最佳的识别结果3、语言模型与语言处理:原创 2016-11-17 21:14:16 · 9150 阅读 · 0 评论 -
语音识别----音高的处理
音的高度。音的高低是由振动频率决定的,两者成正比关系:振动频率高则音”高”,反之则”低”。基频决定音高一个有各种泛音的声音,即使泛音比基频大得多,也依然以基频来定音高。这一点很重要。这就是为什么同唱一个音高,不同人的音色截然不同的根本原因:他们只是基频相同,泛音是截然不同的。插入一个视频,关于音高与基频的关系:http://v.youku.com/v_show/id_XNz原创 2016-11-18 16:37:23 · 7438 阅读 · 0 评论 -
语音学习笔记2------matlab实现傅里叶变换
Matlab是一个在很多科学和工程领域都非常有用的数学工具。傅里叶变换在信号处理、物理、通信、地质学、天文学、光学等很多领域都有应用。这个技术将一个函数或是一组数据从时域或是取样域变换到频域。这意味着,傅里叶变换可以展示一组时间序列数据的频率分量。离散傅里叶变换是将取样域的离散数据转化到频域。快速傅里叶变换是一种高效进行离散傅里叶变换的方法,并且存在很多种方法来完成快速傅里叶变换。Matlab原创 2016-12-14 22:23:44 · 11251 阅读 · 2 评论 -
(最新教程)基于Windows7+visual Studio2013+Python2.7.12环境下的Caffe配置学习
刚刚进入深度学习的这个坑,听说深度学习都用caffe这个框架,就马不停蹄的去搭建caffe框架,结果搞了一个星期,在win7上配置的道路一波三折,在此,特写本次博客让后面进坑的朋友少走点弯路,造福社会!!本文在windows下使用visual studio2013配置关联python的caffe项目,看了很多很多教程,按照教程上面走还是各种错,所以索性就去了Microsoft的Github上面,按原创 2016-12-04 14:59:26 · 2341 阅读 · 0 评论 -
语音学习笔记1------matlab实现自相关函数法基音周期提取
人在发浊音时,气流通过声门使声带产生张弛振荡式振动,产生一股准周期脉冲气流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大部分能量。这种声带振动的频率称为基频,相应的周期就称为基音周期( Pitch) ,它由声带逐渐开启到面积最大(约占基音周期的50% ) 、逐渐关闭到完全闭合(约占基音周期的35% ) 、完全闭合(约占基音周期的15% )三部分组成。 当今主流的基音周期检测原创 2016-12-12 13:05:02 · 15733 阅读 · 8 评论 -
深度学习--基于卷积神经网络的歌唱嗓音识别
卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。 它包括卷积层(alternating convolutional layer)和池层(pooling layer)。卷积神经网络是近年发展起来,并引起广泛重视的一种高效识别方法。20世纪60年代,Hubel和原创 2016-11-24 20:06:28 · 4847 阅读 · 0 评论 -
Praat 学习日志4--脚本程序(赋值,运算)f
程序中我们可以看到可以进行运算,输出是什么意思,在之前的教程中也讲到过,writeInfoLine是输出结果的,而appendInfoLine是在不删掉之前的输出的情况下继续输出。此外需要提醒的是,这些关键字一旦输不对,就会输出错误,大小写等等都有严格按照要求的。a和b是数值型变量,用加号连接是做加法运算,所以第一行输出结果是“3”,而c和d是字符串变量,加号是将其连接起来,所以在1后原创 2016-12-15 11:29:58 · 1207 阅读 · 0 评论 -
语音学习笔记3------matlab实现傅里叶反变换ifft()函数
上一篇博客我们了解到,可以将一个语音信号傅里叶变换,那么,我们能不能逆向推回去呢,用已经存在的数据进行傅里叶逆变换?答案是肯定的。下面就讲讲如何实现傅里叶的反变换。傅里叶变换的函数是ifft();但是ifft()有很多引用的参数语法讲究。y = ifft(X)y = ifft(X,n)y = ifft(X,[],dim)y = ifft(X,n,dim)原创 2016-12-22 14:59:54 · 40119 阅读 · 5 评论 -
语音学习笔记4------matlab实现逆向生成音频格式的信号audiowrite()函数
语音处理中,都是讲语音信号分解成时域范围内波形,或者频域范围内的图。比如经过傅里叶变换生成的频谱图。那么加入我们知道一堆的声音数据,我们怎么将它们还原成规定的音频格式呢,可以是mp3,wav等等的音频格式。也和上一篇博客一样,这是个反向变换的过程。经过查阅相关资料,我们都知道在matlab2012之后,就退出了audio系列的东西,可以读取或者写入各种音频。那么我们反向的过程也是一样的,我们就原创 2016-12-22 15:24:26 · 25646 阅读 · 8 评论 -
语音识别中使用Cool Edit Pro的使用注意事项
在做语音识别的过程中,遇到一些音频格式的问题,简直坑死人。比如转格式,偷懒用酷狗音乐mp3转wav,结果出现了很多问题。下面给大家介绍一个好用的录音工具,直接录,保存以后就是wav格式的文件,做语音识别必不可少的。界面是这样的在右下角有个红色的按钮,那个就是录音的按钮。首先记得要参数设置,调整单声道,可以在波形编辑窗设置。一般是32位和64位。用COOL EDI原创 2017-01-03 21:45:02 · 2036 阅读 · 0 评论 -
语音学习笔记5------subplot函数的用法
subplot是MATLAB中的函数。使用方法:subplot(m,n,p)或者subplot(m n p)。subplot是将多个图画到一个平面上的工具。其中,m表示是图排成m行,n表示图排成n列,也就是整个figure中有n个图是排成一行的,一共m行,如果m=2就是表示2行图。p表示图所在的位置,p=1表示从左到右从上到下的第一个位置。在matlab的命令窗口中输入do原创 2016-12-30 17:09:33 · 1002 阅读 · 0 评论 -
语音学习笔记5------时频分析
很多时候,仅仅在时域或者仅仅在频域上处理信号已经不能满足信号处理的需求,于是时频分析的方法应运而生。进行信号时频分析处理的方法很多,但是最常用的基于傅里叶变换的短时傅里叶变换的方法。在matlab里面的help就是这样的。s = spectrogram(x) s = spectrogram(x,window) s = spectrogram(x,window,noverlap)原创 2017-01-12 21:12:10 · 1651 阅读 · 0 评论 -
语音学习笔记6------Matlab R2015a怎么把界面初始化
哈哈哈,不管是什么编程软件,我们总喜欢瞎点,点着点着我们就乱七八糟了,所以,我们还是需要学会怎么初始化。下面就给大家说说怎么把matlab R2015a的界面初始化,方便新人学习:home -> layout->>default再简单不过了home是左上角,layout的位置在home下的中间,有点像表格的图标,希望能帮到你不懂的可以加我的QQ群:522869126原创 2017-02-09 14:59:49 · 958 阅读 · 0 评论