Just for fun的专栏

好玩,最重要

Praat脚本提取时长及共振峰并绘制声学元音图

具体的步骤不再多解释,大部分的步骤和上一篇“Praat提取时长和基频"是一样的,只不过那里是生成一个Pitch文件,这里是生成一个Formant提取共振峰,而且这里给出的共振峰F1,F2都是音素这段时间内的平均值。 得到最后的结果result.txt之后,拷贝到Excel里,需...

2018-11-15 14:17:57

阅读数 531

评论数 0

基于Python的频谱分析

1、傅里叶变换 傅里叶变换是信号领域沟通时域和频域的桥梁,在频域里可以更方便的进行一些分析。傅里叶主要针对的是平稳信号的频率特性分析,简单说就是具有一定周期性的信号,因为傅里叶变换采取的是有限取样的方式,所以对于取样长度和取样对象有着一定的要求。   2、基于Python的频谱分析 将时域...

2018-11-13 00:07:04

阅读数 950

评论数 0

MP3文件结构解析(超详细)

1. MP3文件结构解析 1.1. 概述 1.1.1. 音频相关术语 ü  ID3: 一般位于一个mp3文件的开头或末尾的若干字节内,记录该mp3文件的歌手、标题、专辑名称、年代、风格等信息,ID3分位两个版本,V1版ID3在文件末尾的固定128字节,以TAG字符开头,若没有则认为无ID3V1信...

2018-11-07 23:54:14

阅读数 359

评论数 0

[前端]利用WebAudioAPI获取音频频谱(html5音频可视化)

项目希望可以把音频可视化,有条随声音波动的曲线或者是像唱吧那种。开始是搜到了腾讯大腿(TGideas)写的audio可视化组件,想着直接用,后来各种原因还是打算自己重新写一个……虽然明显写得low了很多。 腾讯大腿的audio组件地址http://www.3fwork.com/b403/00162...

2018-11-06 22:39:24

阅读数 2191

评论数 0

PCM音频格式的深入理解

PCM:其数据排列格式为左右声道每个样本点数据交错排列 16bit的PCM数据是有负数的,至于负数的意义,我估计是代表电压的正负的,0值代表无声。如下为FFmpeg中所定义的音频格式:enum   AVSampleFormat {    AV_SAMPLE_FMT_NONE = -1,   ...

2018-11-06 22:18:45

阅读数 128

评论数 0

python 实现MFCC

语音数据:http://www.voiptroubleshooter.com/open_speech/american.html  For this post, I used a 16-bit PCM wav file from [here]   import numpy import sci...

2018-11-06 22:10:07

阅读数 574

评论数 0

梅尔频率倒谱系数(MFCC) 学习笔记

梅尔频率倒谱系数(MFCC) 学习笔记 最近学习音乐自动标注的过程中,看到了有关使用MFCC提取音频特征的内容,特地在网上找到资料,学习了一下相关内容。此笔记大部分内容摘自博文 http://blog.csdn.net/zouxy09/article/details/9156785 有小部分标注...

2018-11-06 22:04:36

阅读数 150

评论数 1

Attention注意力机制--原理与应用

Attention注意力机制--原理与应用 注意力机制即Attention mechanism在序列学习任务上具有巨大的提升作用,在编解码器框架内,通过在编码段加入A模型,对源数据序列进行数据加权变换,或者在解码端引入A模型,对目标数据进行加权变化,可以有效提高序列对序列的自然方式下的系统表...

2018-01-09 11:48:53

阅读数 289

评论数 0

TACOTRON:端到端的语音合成

  由于最近在学习语音识别和语音合成方面的内容,整理了一些东西,本文为论文tacotron的笔记。   tacotron主要是将文本转化为语音,采用的结构为基于encoder-decoder的Seq2Seq的结构。其中还引入了注意机制(attention mechanism)。在对模型的结构进行...

2018-01-09 11:40:03

阅读数 572

评论数 1

用 TensorFlow 创建自己的 Speech Recognizer

参考资料 源码请点:https://github.com/llSourcell/tensorf... 语音识别无处不在,siri,google,讯飞输入法,讯飞语记,智能家居,车,etc。 每天都在用的,很好奇它是怎么实现的,今天来看看这么便利的东东到底是什么样子呢。 进化...

2018-01-09 11:13:31

阅读数 206

评论数 0

7 个开源的TTS(文本转语音)系统推荐

本文主要介绍7款开源的TTS系统,你可以用来学习,也可以在你的项目中使用。   1.  MARY - Text-to-Speech System   MARY是一个采用Java开发的、多语种的文本转语音平台,它支持:德语、英语、美式英语、泰卢固语、土耳其语和俄语。   2....

2018-01-09 11:12:32

阅读数 4310

评论数 0

Flite,一种开源的tts软件从安装到…

一. 下载安装: (1)下载地址:http://www.speech.cs.cmu.edu/flite/download.html (2) 和一般的开源软件安装步骤基本一致:       tar zxvf flite-XXX.tar.gz       cd flite-XXX      ...

2018-01-09 11:05:09

阅读数 585

评论数 0

语音识别关键技术公开,人机交互这么做就对了!

对于识别来说,首先要保障的是远场环境下的识别率,除了前面提到的麦克风阵列解决了前端声学的问题,还要有专门针对远场环境下,基于大量数据训练的声学模型,这样才能保证识别率满足交互需求。 语音识别是目前应用最成熟的人机交互方式,从最初大家体验过的有屏手持设备这种近场的语音识别,如S...

2017-11-17 22:18:59

阅读数 3309

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭