音频
文章平均质量分 75
帅气滴点C
这个作者很懒,什么都没留下…
展开
-
自相关函数与互相关函数
转自:https://blog.csdn.net/denghecsdn/article/details/788480461、概念 相关函数是描述信号X(s),Y(t)(这两个信号可以是随机的,也可以是确定的)在任意两个不同时刻s、t的取值之间的相关程度。两个信号之间的相似性大小用相关系数来衡量。定义: 称为变量 X 和 Y 的相关系数。若相关系数 = 0,则称 ...转载 2018-11-05 11:08:49 · 50925 阅读 · 0 评论 -
载波与调制
载波:一般是一个正弦波,主要参数有幅度,频率,相位。调制:把携带信号的调制波去调制载波的参数,为了能够高效传输。原创 2015-09-27 10:57:58 · 2416 阅读 · 0 评论 -
librosa与python_speech_features
在语音识别领域,比较常用的两个模块就是librosa和python_speech_features了。直接对比两文档就可以看出librosa功能十分强大,涉及到了音频的特征提取、谱图分解、谱图显示、顺序建模、创建音频等功能,而python_speech_features只涉及了音频特征提取。就特征提取的实现方法和种类来看,两者也有所不同。python_speech_features的特征支...转载 2019-11-03 11:17:39 · 1982 阅读 · 0 评论 -
DNN 语音相关模型
DNN1 A practical guide to training restricted Boltzmann machines 介绍RBM以及训练RBM时的N多trick,如果要实现RBM算法,这篇文章必看 2 A fast learning algorithm for deep belief nets Hinton的经典之作,Deep Learning的开山之作,算是D...转载 2018-10-16 19:54:24 · 1527 阅读 · 0 评论 -
librosa 音频处理库
1. 名词解释名称 含义 sr(sample_rate) 采样率,表示一秒采样多少个样本点 hop_length 步幅;帧移对应卷积中的stride;连续帧分割长度 overlapping 连续两帧的重叠部分 n_fft 窗口大小;n_fft = hop_length+overlapping spectrum 光谱,频谱 spe...原创 2018-11-09 10:36:32 · 7783 阅读 · 2 评论 -
语音识别相关资料整理
目录1.相关会议2. 具体补充1. MFCC相关:1.相关会议1.1 国际最顶尖会议ICASSP:声学,语音和信号处理国际会议每年一届,10月截稿,次年5月开会 ICSLP:半导体激光与光子学国际会议偶数年举办,4月截稿,9月开会 EuroSpeech :欧洲演讲会议沟通与技术奇数年举办,4月截稿,9月开会1.2 其他会议ICSMC:Int l系统,人与控制...原创 2018-11-05 15:33:43 · 10996 阅读 · 0 评论 -
语音识别补充(一)(音素,三音素)
语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成。一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文、说话者、语音风格等;协同发音:(指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。)的存在使得音素的感知与标准不一样,所以我们需要根据上...转载 2018-08-04 14:51:49 · 6768 阅读 · 0 评论 -
声音的三要素跟声波的幅度、频率和频谱的对应关系
声音的特性可由三个要素来描述,即响度、音调和音色。1、音调声音的高低称为音调。音调取决于声源振动的频率。物体在1秒内振动的次数叫频率。其单位是赫兹,简称赫,符号为Hz。物体振动得越快,频率越大。音调跟发声体振动的频率关系是:频率越大,音调越高;频率越小,音调越低。2、响度人耳对声音强弱的主观感觉称为响度,响度又称音量。响度跟声源的幅度以及人距离声源的远近有关。响度与振幅的关系...原创 2018-09-05 15:44:56 · 10799 阅读 · 0 评论 -
深度学习相关会议
1. 深度学习ICLR:国际表示学习会议(International Conference on Learning Representations, ICLR) :主要聚焦于深度学习。 NIPS:神经信息处理系统年会(Annual Conference on Neural Information Processing Systems, NIPS):交叉学科会议,但偏重于机器学习。主要包括神...原创 2018-09-07 22:14:34 · 4732 阅读 · 0 评论 -
语音分析的工具
语音分析的工具选择:常见的工具有:Goldwave (audio editor) Esps Xwaves (routines+visual) Praat (speech editor) Wavesurfer (speech editor) https://wenku.baidu.com/view/b61fafc65fbfc77da269b1f6.html Transcribe...原创 2019-06-03 17:09:10 · 2286 阅读 · 0 评论 -
CTC
目录CTCRNN+CTCCTC聊到CTC(Connectionist Temporal Classification),很多人的第一反应是ctc擅长单行验证码识别:ctc可以提高单行文本识别鲁棒性(不同长度不同位置 )。今天David 9分享的这篇文章用几个重点直观的见解把ctc讲的简洁易懂,所以在这里就和大家一起补一补ctc 。ctc算不上一个框架,更像是连接在神经...原创 2019-06-03 17:30:17 · 5285 阅读 · 0 评论 -
语音识别基础
语音识别 我们的声音进入电脑后,变成了下面的结构 (上面这个图也叫声音的“时域”图,因为声音通过话筒进入计算机,是按时间上的先后顺序来的) 我们来“描述”一下,他有什么特征:1. 中间区域内,“振荡”幅度特别大,而两边变化的比较小,(中间区域的内容是“yi”的发音的声音图两边的地方是“静音区”,即在录音开始时,我们没有发出声音,但电脑已经开始录...转载 2018-10-06 22:32:18 · 513 阅读 · 0 评论 -
语音识别的难点
尽管语音识别的研究已有半个世纪了, 但现有的语音识别系统仍存在许多困难, 还远远达不到实用化的要求, 主要表现在:(1)鲁棒性:目前的语音识别系统对环境条件的依赖性强, 要求保持测试条件和训练条件一致, 否则系统性能会严重下降。(2)噪声问题::现有的语音识别系统大多只能工作在安静的环境下, 一旦在噪声环境下工作, 讲话人产生情绪或心理上的变化, 导致发音失真、发音速度和音调改变, 即产生...转载 2018-09-21 20:42:17 · 4290 阅读 · 1 评论 -
语音识别的发展过程
目录上世纪50年代:上世纪60年代:上世纪70年代:上世纪80年代:上世纪90年代:20世纪头10年:2006年:语音识别技术伴随着计算机科学和通信等学科的发展逐步成长,至今已经有超过六十年的历史。上世纪50年代: 早在上世纪50年代,贝尔实验室就开始进行语音识别的研究。当时研究的主要是基于简单的孤立词的语音识别系统。例如,1952年贝尔实验室采用...转载 2018-09-13 08:42:07 · 10946 阅读 · 2 评论 -
语音识别的技术
首先要进行端点检测(VAD),然后对声音进行分析。需要对声音分帧,也就是把声音切成一小段一小段的,每一小段称为一帧,分帧时要使用移动窗函数来实现,帧与帧之间一般是有交叠,如下图所示,每帧长度是25毫秒,每两帧之间有25-10=15毫秒的交叠,称为以帧长25ms,帧移10ms的分帧。 分帧后,语音就变成了许多小段,在波形的时域上没有任何描述能力,因此必须将波形做变换。常见的一种变换...转载 2018-09-13 09:13:00 · 585 阅读 · 0 评论 -
信号与频谱
出处:http://www.cnblogs.com/vamei 信号(singal)简介我们在生活中经常遇到信号。比如说,股票的走势图,心跳的脉冲图等等。在通信领域,无论是的GPS、手机语音、收音机、互联网通信,我们发送和接收的都是信号。最近,深圳地铁通信系统疑似与WiFi信号冲突,也就是地铁的天线收到了WiFi的信号,而误把该信号当作地铁通信信号。我们的社会信息化,是建立在信号的基础上的...转载 2018-09-19 21:02:04 · 4593 阅读 · 1 评论 -
MFCC特征参数提取(一)(基于MATLAB和Python实现)
1、MFCC概述在语音识别(Speech Recognition)和话者识别(Speaker Recognition)方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients,简称MFCC)。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响较大。两个响度不...转载 2018-09-05 15:38:43 · 3724 阅读 · 2 评论 -
语音信号处理之(四)梅尔频率倒谱系数(MFCC)
转自https://blog.csdn.net/zouxy09/article/details/9156785在任意一个Automatic speech recognition 系统中,第一步就是提取特征。换句话说,我们需要把音频信号中具有辨识性的成分提取出来,然后把其他的乱七八糟的信息扔掉,例如背景噪声啊,情绪啊等等。 搞清语音是怎么产生的对于我们理解语音有很大帮助。人通过...转载 2018-08-03 16:54:20 · 857 阅读 · 0 评论 -
MFCC简易教程
1.声音的来源:声音被声道的形状过滤,包括舌头,牙齿等。这种形状决定了声音的来源。如果我们能够准确地确定形状,这应该能够准确地表示正在生产的音素。声道的形状表现在短时功率谱的包络中,MFCC的工作是准确地表示这个包络。Mel频率倒谱系数(MFCC)是一种广泛用于自动语音和说话人识别的功能。它们是戴维斯和梅尔斯坦在20世纪80年代引入的,从那以后一直是最先进的。在引入MFCC之前,线性预测系...翻译 2018-09-19 21:35:25 · 1629 阅读 · 0 评论 -
MFCC(三)
--最近看信号处理相关的知识,会随时补充或者更正之前写的不对的地方,或者是补充一些自己的理解----STFT和声谱图(Spectrogram)声音信号本是一维的时域信号,直观上很难看出频率变化规律。如果通过傅里叶变换把它变到频域上,虽然可以看出信号的频率分布,但是丢失了时域信息,无法看出频率分布随时间的变化。为了解决这个问题,很多时频分析手段应运而生。短时傅里叶,小波,Wigner分布等都...转载 2018-09-19 21:47:46 · 2326 阅读 · 0 评论 -
深度学习笔记 个人阅读的Deep Learning方向的paper整理
整理和语音相关的资料。参考:https://blog.csdn.net/chenriwei2/article/details/38064555一 RNN1 Recurrent neural network based language model RNN用在语言模型上的开山之作 2 Statistical Language Models Based on Neural N...原创 2018-09-15 09:28:19 · 7628 阅读 · 0 评论 -
嵌入式/压缩神经网络相关工作汇总
原文链接:https://www.ctolib.com/ZhishengWang-Embedded-Neural-Network.html Papers Reading List.This is a collection of papers aiming at reducing model sizes or the ASIC/FPGA accelerator for Machine L...转载 2018-09-15 15:35:29 · 1061 阅读 · 0 评论 -
音频的概念解析
1.参数:一般地,音频有以下几个很重要的参数:采样频率:每秒采集数据的次数 采样精度:每次采集数据的位数 通道数:存在几路音频 比特率:针对编码格式,表示压缩编码后每秒的音频数据量大小 我们知道,正常人听觉的频率范围大约在20Hz~20kHz之间。采样频率是指将模拟声音波形进行数字化时,每秒钟抽取声波幅度样本的次数。根据奈奎斯特采样理论,为了保证声音不失真,采样频率应...原创 2018-09-05 14:56:49 · 1806 阅读 · 0 评论