语音技术
jiangyangbo
语音识别, 音频技术,深度学习
展开
-
wav文件的文件头
wav文件的文件头wave文件的格式: 00H 4 char "RIFF"标志 04H 4 long int 文件长度 08H 4 char "WAVE"标志 0CH 4 char "fmt"标志 10H 4 过渡字节(不定) 14H 2 int 格式类别(10H为PCM形式的声音数据) 16H 2 int 通道数,单声道为1,双声道为2 18H 2 int 采样率(每秒样转载 2010-04-14 10:12:00 · 838 阅读 · 0 评论 -
欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2016-04-25 18:53:12 · 355 阅读 · 0 评论 -
听音训练手册--音频制品与听评
听音训练手册--音频制品与听评jason corey zhu原创 2014-08-10 19:00:50 · 2805 阅读 · 0 评论 -
Siri and the Kai-Fu Effect
Siri and the Kai-Fu EffectRoberto PieracciniSLTC Newsletter, May 2012The recent excitement around speech recognition caused by the popularity of Apple's Siri reminds me of the research atm转载 2013-02-03 21:06:11 · 813 阅读 · 0 评论 -
An Overview of Acoustic Modeling Techniques from ICASSP 2012
An Overview of Acoustic Modeling Techniques from ICASSP 2012Tara N. SainathSLTC Newsletter, May 2012The International Conference on Acoustic, Audio and Signal Processing (ICASSP) was recen转载 2013-02-03 21:08:37 · 1581 阅读 · 0 评论 -
有源降噪装置专利(转)
申请专利号200410047432.4 专利申请日2004.05.28 名称有源降噪装置 公开(公告)号1573919公开(公告)日2005.02.02 颁证日 优先权2003.5.29 JP 2003-151827申请(专利权)松下电器产业株式会社;本田技研工业株式会社 地址日原创 2011-06-21 14:37:00 · 1729 阅读 · 0 评论 -
VTLN(Vocal Tract Length Normalisation)
VTLN是Vocal Tract Length Normalisation 的简称。中文为:声道长度归一化。主要用于语音识别,消除男,女的声道长度的差异。在HTK中有源码,HTK book中有介绍。修改了MEL频率中的中心频率。用到的参数:WARPFREQLOFREQHIFREQvariables (WARPLCUTOFF) and (WARPUCUTOFF).变量IOConfigRec原创 2011-06-10 11:02:00 · 15425 阅读 · 1 评论 -
语音增强效果的测试方法
侵入式检测,p.563原创 2011-02-15 09:07:00 · 4494 阅读 · 2 评论 -
音量的计算
<br /><br />音量又称响度、音强,是指人耳对所听到的声音大小强弱的主观感受,其客观评价尺度是声音的振幅大小。这种感受源自物体振动时所产生的压力,即声压。物体振动通过不同的介质,将其振动能量传导开去。人们为了对声音的感受量化成可以监测的指标,就把声压分成“级”——声压级,以便能客观的表示声音的强弱,其单位称为“分贝”(dB)。<br />音量的计算<br />1,声音数据data,长度为len<br />方法1,音量为声音的最大值减去最小值的一半,类似均值。<br /> function vol1原创 2011-02-25 20:56:00 · 6526 阅读 · 0 评论 -
中心频率
<br />Y = fft(y,1024);<br />Pyy = Y.* conj(Y)/1024;<br />f = fs*(0:512)/1024;<br />figure;<br />plot(f,Pyy(1:513));<br />f是每个fft 的 bin上的中心频率原创 2010-12-29 20:04:00 · 1975 阅读 · 0 评论 -
语音识别技术的先锋
语音识别技术的先锋 当Frederick Jelinek 去世的时候,人家才发现一个开创语音识别领域新时代的人和大家说再见了。因为在他之前,贝尔实验室的john pierce 曾经在美国声学学会会刊上悲观地写道:speech recognition was dominated by "mad scientists and untrustworthy engineers" and that "speech re原创 2010-12-27 21:02:00 · 1445 阅读 · 0 评论 -
一个简单的RASTA matlab CODE
<br /> <br />function y=rasta(x,fs,low,high)<br />% function y=rasta(x,fs) where x is the input data (rows of time data), <br />% and fs is the frame rate (sampling rate) in Hz. This is a modified <br />% version of the original filter. Here the RASTA fil原创 2010-10-14 10:53:00 · 1274 阅读 · 0 评论 -
麦克风的指向性
<br />声学基础上有(下册,好像是第六章,声波的接收).<br />传声器只是前腔开透声孔,声压式,全指向性;<br />传声器前后腔对称开透声孔,压差式,双指向性(∞);<br />传声器前后腔不对称(或側面)开透声孔,复合式,单指向性(心型,超心型);<br /><br />压强式传声器是全指的,压差式是8字的指向性,单指向传声器是2者的复合,有心形,超心型等等。<br />单指向产品它的实现方式有2种,一种是从电路上入手,一种是从声学结构上入手,这就是大多数工厂采用的相移传声器。成本低,工艺上容易原创 2010-09-21 13:51:00 · 7298 阅读 · 0 评论 -
语谱图
<br />[y1,fs,nbits] = wavread('D:/data/sp01.wav'); //语音文件自己修改<br />figure(1);<br />specgram(y1,256,8000,256,128);<br />title('sp01');<br /> <br />x = y1;<br />nfft = 256;<br />Fs = 8000;<br />Window =window(256);<br />Noverlap = 128;<br /> <br />nx = l原创 2010-09-21 13:52:00 · 13364 阅读 · 2 评论 -
srilm编译,
Srilm的全称是Stanford Research Institute Language Modeling Toolkit 他被用来构建和应用统计语言模型,主要用于语音识别,统计标注和切分,以及机器翻译等工作ubuntu编译,可以再52nlp中取找。VC编译,可以再下面链接找,http://www.keithv.com/software/srilm/以VS2008为例,可以下载最新的SRILMInstructions Download and unpack the SRILM toolkit.Unzip原创 2010-08-11 17:49:00 · 1333 阅读 · 0 评论 -
matlab toolbox(audio)
Audio PQevalAudio [options] AFileR AFileThttp://www.tsp.ece.mcgill.ca/MMSP/Documents/Software/Packages/AFsp/PQevalAudio.html TTSBOX: A MATLAB TOOLBOX FOR TEACHING TEXT-TO-SPEECH SYNTHE转载 2010-05-17 19:30:00 · 4819 阅读 · 1 评论 -
语音质量评价
语音作为信息传递的重要载体,与其相关构成的通信、编码、存储和处理等语音系统已成为现代社会信息交流的必要手段,且已广泛应用于社会各个领域。这些系统的性能好坏成为信息交流是否畅通的重要因素,而评价这些系统性能优劣的根本标志是在于系统输出语音质量的好坏。因此,研制灵活、方便、可靠的语音质量评价系统自然成为国内外研究者共同努力的目标。 语音质量包括两方面内容:清晰度和自然度。前者是衡量语音中的字、转载 2010-04-14 10:33:00 · 5511 阅读 · 1 评论 -
kaidi中 install cuda
1, 官网网址, cuda nvidia linux install http://docs.nvidia.com/cuda/cuda-getting-started-guide-for-linux/index.html#ubuntu-installation2 , lspci | grep -i nvidia GeForce GTX 750原创 2016-04-21 14:58:21 · 1072 阅读 · 0 评论