语音
文章平均质量分 80
CopperDong
纯属巧合
展开
-
openfst 学习笔记
系统学习一下openfst的操作tutorial从最基本的 fst 图说起从图中可以大致了解到 fst 包含的几个元素: 起始状态,终止状态(终止状态含有权重),转移边,边上有输入符号,输出符号,边权重于是,对于输入串 ac, fst 会输出 xz 权重和为 6.5对于 bc ,输出 yz, 权重和为 7.5creating fst创建fst的方式有两种,一是通过c++接口,二是通过shell脚本本文以shell脚本方式为主首先通过如下指令创建 text.fstca转载 2021-03-26 17:13:51 · 658 阅读 · 0 评论 -
Mac 下编译 Kaldi Android (arm) .so 库
话说之前公司里面一直用到的是 PocketSphinx , 但是在新的项目中有一个应用的场景,这时候发现噪声影响以及识别的精确度方面都不是很理想。于是在 Telegram Channel 里面咨询了下,@nshmyrev 回复建议可以利用 Kaldi DNN 模型,应该会有显著提升。于是考虑转向研究 Kaldi。首先碰到的一个问题是跨平台编译。网上搜索后发现,被引用最多的一篇文章(下文简称“编译指南”)是 compile-kaldi-android,但它是基于 Ubuntu 环境来编译的,也看到了编译转载 2021-02-02 20:34:32 · 655 阅读 · 1 评论 -
Kaldi(A5)语言模型及HCLG.fst生成
这节介绍一下如何修改生成适合自己场景的语言模型。RefOnline decoding in Kaldi(Nnet2) http://kaldi-asr.org/doc/online_decoding.html修改语言模型首先,我们为什么要修改语言模型?虽然已有现成的Fisher_English或者Librispeech的HCLG.fst,但是他们用到的是3-gram,也就是说上下文一共是3个单词,而且文本涵盖的范围很广。假如我只想在特定范围内进行识别呢?比如仅仅在对某个智能音箱的指令范围内?转载 2020-12-26 20:54:50 · 1096 阅读 · 0 评论 -
机器学习中的音频特征:理解Mel频谱图
如果你像我一样,试着理解mel的光谱图并不是一件容易的事。你读了一篇文章,却被引出了另一篇,又一篇,又一篇,没完没了。我希望这篇简短的文章能澄清一些困惑,并从头解释mel的光谱图。信号信号是一定量随时间的变化。 对于音频,变化的量是气压。 我们如何以数字方式捕获此信息? 我们可以随时间采集气压样本。 我们采样数据的速率可以变化,但是最常见的是44.1kHz,即每秒44,100个采样。 我们捕获的是信号的波形,可以使用计算机软件对其进行解释,修改和分析。import librosaimport转载 2020-12-17 14:49:53 · 3034 阅读 · 1 评论 -
梅尔频谱(mel-spectrogram)提取,griffin_lim声码器【python代码分析】
在语音分析,合成,转换中,第一步往往是提取语音特征参数。利用机器学习方法进行上述语音任务,常用到梅尔频谱。本文介绍从音频文件提取梅尔频谱,和从梅尔频谱变成音频波形。从音频波形提取Mel频谱:对音频信号预加重、分帧和加窗 对每帧信号进行短时傅立叶变换STFT,得到短时幅度谱 短时幅度谱通过Mel滤波器组得到Mel频谱从Mel频谱重建音频波形Mel频谱转换成幅度谱 griffin_lim声码器算法重建波形 去加重声码器有很多种,比如world,straight等,但是griffin转载 2020-12-17 14:48:55 · 2492 阅读 · 1 评论 -
thch30 steps/make_mfcc.sh详解
这个脚本的输入参数有三个:1.data/mfcc/train 2.exp/make_mfcc/train 3.mfcc/train1.data/mfcc/train中有数据预处理后的一些文件:phone.txt spk2utt text utt2spk wav.scp word.txt2.exp/make_mfcc/train中应该是要保存程序运行的日志文件的3.mfcc/train中是提取出的特征文件1是输入目录,2,3是输出目录#!/bin/bash# Copyright 2012-2转载 2020-11-07 17:52:02 · 858 阅读 · 1 评论 -
说说python自带的speech和speech_recognition的使用以及效果
人工智能这么火爆的时代,近来正好有时间就想研究以下智能语音这块的内容,虽然感觉自带的模块应该识别不太准确,不然就不会有百度的padder,google的tensorflow等框架,但是路要一步步走,饭也要一步步吃,初学的时候总要各种尝试一下。以下内容是我最近两天的尝试结果。环境win10,python3.7先说说speech,这个贼简单pip install speech recognize_bing():Microsoft Bing Speech recognize...转载 2020-10-18 21:08:27 · 5360 阅读 · 1 评论 -
Goodness of Pronunciation
关于打分使用的算法目前工业界采用的主流的跟读口语评分方法主要是基于隐马尔可夫模型(Hidden Markov Model)的语音识别引擎,利用其似然分数值(likelihood score)以及其他相关的信息做为评分依据。其中,最经典的GOP(Goodness of Pronunciation)方法是由麻省理工大学的Silke Witt在他的博士论文中提出。之后的评分方法大都与GOP算法相似,或者是由它衍生出来。流利说使用的打分算法也正是以GOP算法为基础的。GOP算法:Wit...转载 2020-06-19 09:38:19 · 1971 阅读 · 0 评论 -
CTC算法详解
↵章初衷一样,网上解释很多,但是讲的不是很明白,在看完几篇参考博客后特此记录简介先拿语音识别任务来说,如果现在有一个包含剪辑语音和对应的文本,我们不知道如何将语音片段与文本进行对应,这样对于训练一个语音识别器增加了难度。为了解决上述问题,我们可以先制定一个规则,例如“一个字符对于是个语言片段输入”。对于不同的人来说,他们说话的语速也不一样,这样导致了上述的定义规则不可行。另一个解...转载 2019-09-19 13:59:08 · 626 阅读 · 0 评论 -
利用Python通过频谱分析和KNN完成iphone拨号的语音识别
原文最近这段时间,学校里的事情实在太多了,从七月下旬一直到八月底实验室里基本天天十二点或者通宵,实在是没有精力和时间来写博客。这周老师出国开会,也算有了一个短暂的休息机会,刚好写点有意思的东西。上周在天津的会议上碰到一个北交的姐们儿,她想利用小波变换来处理失超信号,刚好之前自己就有这个想法,所以回来后就想着把相关的内容好好复习复习,最相关的就是傅里叶分析和小波变换了。数学推导固然重要,但写...转载 2019-07-11 17:34:16 · 593 阅读 · 0 评论 -
语音信号处理1
简单历史语音信号处理可以说是从1940年前后Dudley的声码器和Potter等人的可见语音开始的。20世纪60年代初期,由于Faut和Stevens的努力,奠定了语音生成理论的基础,在此基础上语音合成的研究得到了扎实的进展。60年代中期形成的一系列数字信号处理方法和技术,如数字滤波器、快速傅里叶变换(FFT)等成为语音信号数字处理的理论和技术基础。在方法上,随着电子计算机的发展,...原创 2019-07-10 14:49:13 · 582 阅读 · 0 评论 -
Praat脚本提取时长及共振峰并绘制声学元音图
具体的步骤不再多解释,大部分的步骤和上一篇“Praat提取时长和基频"是一样的,只不过那里是生成一个Pitch文件,这里是生成一个Formant提取共振峰,而且这里给出的共振峰F1,F2都是音素这段时间内的平均值。得到最后的结果result.txt之后,拷贝到Excel里,需要自己过滤元音,把辅音的数据删除。http://download.csdn.net/detail/shaopengf...转载 2018-11-15 14:17:57 · 2986 阅读 · 0 评论 -
用 TensorFlow 创建自己的 Speech Recognizer
参考资料源码请点:https://github.com/llSourcell/tensorf...语音识别无处不在,siri,google,讯飞输入法,讯飞语记,智能家居,车,etc。每天都在用的,很好奇它是怎么实现的,今天来看看这么便利的东东到底是什么样子呢。进化史最开始的 speech recognizer 只能识别 0-9 这几个数字,说别的单词是转载 2018-01-09 11:13:31 · 610 阅读 · 0 评论 -
Flite,一种开源的tts软件从安装到…
一. 下载安装:(1)下载地址:http://www.speech.cs.cmu.edu/flite/download.html(2) 和一般的开源软件安装步骤基本一致: tar zxvf flite-XXX.tar.gz cd flite-XXX ./configure (可选项 --prefix=/opt 意思是指定安装目录,其实不需要特别指定转载 2018-01-09 11:05:09 · 3759 阅读 · 2 评论 -
语音识别关键技术公开,人机交互这么做就对了!
对于识别来说,首先要保障的是远场环境下的识别率,除了前面提到的麦克风阵列解决了前端声学的问题,还要有专门针对远场环境下,基于大量数据训练的声学模型,这样才能保证识别率满足交互需求。语音识别是目前应用最成熟的人机交互方式,从最初大家体验过的有屏手持设备这种近场的语音识别,如Siri以及各种语音助手,到现在,语音识别的应用已经完成了向智能硬件以及机器人上延伸,不过,新的人机交互转载 2017-11-17 22:18:59 · 5551 阅读 · 0 评论 -
TACOTRON:端到端的语音合成
由于最近在学习语音识别和语音合成方面的内容,整理了一些东西,本文为论文tacotron的笔记。 tacotron主要是将文本转化为语音,采用的结构为基于encoder-decoder的Seq2Seq的结构。其中还引入了注意机制(attention mechanism)。在对模型的结构进行介绍之前,先对encoder-decoder架构和attention mechanism进行简单的介绍...转载 2018-01-09 11:40:03 · 1252 阅读 · 1 评论 -
Attention注意力机制--原理与应用
Attention注意力机制--原理与应用注意力机制即Attention mechanism在序列学习任务上具有巨大的提升作用,在编解码器框架内,通过在编码段加入A模型,对源数据序列进行数据加权变换,或者在解码端引入A模型,对目标数据进行加权变化,可以有效提高序列对序列的自然方式下的系统表现。什么是Attention?Attention模型的基本表述可以这样理解成(我个人理转载 2018-01-09 11:48:53 · 898 阅读 · 0 评论 -
梅尔频率倒谱系数(MFCC) 学习笔记
梅尔频率倒谱系数(MFCC) 学习笔记最近学习音乐自动标注的过程中,看到了有关使用MFCC提取音频特征的内容,特地在网上找到资料,学习了一下相关内容。此笔记大部分内容摘自博文 http://blog.csdn.net/zouxy09/article/details/9156785 有小部分标注和批改时我自己加上的,以便今后查阅。 语音信号处理之(四)梅尔频率倒谱系数(MFCC)...转载 2018-11-06 22:04:36 · 695 阅读 · 1 评论 -
python 实现MFCC
语音数据:http://www.voiptroubleshooter.com/open_speech/american.html For this post, I used a 16-bit PCM wav file from [here] import numpyimport scipy.io.wavfilefrom matplotlib import pyplot as plt...转载 2018-11-06 22:10:07 · 3001 阅读 · 0 评论 -
PCM音频格式的深入理解
PCM:其数据排列格式为左右声道每个样本点数据交错排列16bit的PCM数据是有负数的,至于负数的意义,我估计是代表电压的正负的,0值代表无声。如下为FFmpeg中所定义的音频格式:enum AVSampleFormat { AV_SAMPLE_FMT_NONE = -1, AV_SAMPLE_FMT_U8, ///< unsigned 8 bits...转载 2018-11-06 22:18:45 · 2235 阅读 · 0 评论 -
[前端]利用WebAudioAPI获取音频频谱(html5音频可视化)
项目希望可以把音频可视化,有条随声音波动的曲线或者是像唱吧那种。开始是搜到了腾讯大腿(TGideas)写的audio可视化组件,想着直接用,后来各种原因还是打算自己重新写一个……虽然明显写得low了很多。腾讯大腿的audio组件地址http://www.3fwork.com/b403/001620MYM013253/GitHubhttps://github.com/tgideas/motion...转载 2018-11-06 22:39:24 · 11556 阅读 · 1 评论 -
基于Python的频谱分析
1、傅里叶变换傅里叶变换是信号领域沟通时域和频域的桥梁,在频域里可以更方便的进行一些分析。傅里叶主要针对的是平稳信号的频率特性分析,简单说就是具有一定周期性的信号,因为傅里叶变换采取的是有限取样的方式,所以对于取样长度和取样对象有着一定的要求。 2、基于Python的频谱分析将时域信号通过FFT转换为频域信号之后,将其各个频率分量的幅值绘制成图,可以很直观地观察信号的频谱。 具...转载 2018-11-13 00:07:04 · 6427 阅读 · 0 评论 -
MP3文件结构解析(超详细)
1. MP3文件结构解析1.1. 概述1.1.1. 音频相关术语ü ID3:一般位于一个mp3文件的开头或末尾的若干字节内,记录该mp3文件的歌手、标题、专辑名称、年代、风格等信息,ID3分位两个版本,V1版ID3在文件末尾的固定128字节,以TAG字符开头,若没有则认为无ID3V1信息,V2版ID3位于mp3的开头,长度可变。ü 采样率:每秒从连续信号中提取并组成离散信号的采样...转载 2018-11-07 23:54:14 · 3392 阅读 · 0 评论 -
7 个开源的TTS(文本转语音)系统推荐
本文主要介绍7款开源的TTS系统,你可以用来学习,也可以在你的项目中使用。 1. MARY - Text-to-Speech System MARY是一个采用Java开发的、多语种的文本转语音平台,它支持:德语、英语、美式英语、泰卢固语、土耳其语和俄语。 2. SpeakRight Framework - Helps to build Speech Reco转载 2018-01-09 11:12:32 · 13028 阅读 · 0 评论