高效率代码技巧

CSND已永久停更,最新版唯一来源点击下面链接跳转: 语音增强和识别网页书   1.对齐memory,高效利用cache line,尽可能减少取数次数   /* |alignment| is the byte alignment and MUST be a power of two. *...

2018-07-05 14:03:02

阅读数 597

评论数 2

数学计算库

CSND已永久停更,最新版唯一来源点击下面链接跳转: 语音增强和语音识别网页书 写算法的实现,离不开各种矩阵以及线性代数的运算,包括矩阵求逆,矩阵分解,SVD以及特征值,特征向量等; 尤其是复高斯模型或者在频域里做处理时用到复数矩阵相关运算;APP公司官网的加速链接中就有BLAS相关的API...

2018-06-21 16:27:56

阅读数 564

评论数 0

tensorflow 模型文件

CSND已永久停更,最新版唯一来源点击下面链接跳转: 语音增强和识别网页书 tensorflow生成的模型文件主要有三个: ``` .meta, .index和.data ``` 分成三个文件的原因是tensorflow将计算图结构和变量值存储在不同的文件里。.meta文件描述的是计算...

2018-06-19 17:59:47

阅读数 426

评论数 0

makefile 编译第三方库

CSND已永久停更,最新版唯一来源点击下面链接跳转: 语音增强和识别网页书 以前在编写跨平台编译框架时,要引用第三方库,这里的例子实现了下载和编译第三方库,正适合用~! ``` FFTW = fftw-3.3.4 all: .deps fftw decode ops utils .de...

2018-05-28 10:15:34

阅读数 721

评论数 0

关于AEC算法的几点思考

CSND已永久停更,最新版唯一来源点击下面链接跳转: 一年前我剖析过开源的AEC算法,文章链接是语音增强和语音识别网页书;时隔这么长时间,再过来看这个算法,略有体会,以下有几点个人思考: AEC算法的主要目的是自身音源消除,对于手机或者pc这类的通话场景,这类场景和音响场景稍有差异,两者遇到的...

2018-05-16 23:40:51

阅读数 2843

评论数 0

唤醒词识别

CSND已永久停更,最新版唯一来源点击下面链接跳转: 语音增强和语音识别网页书   有如下几个原因使得唤醒词识别具有难度 1.低功耗; 2.低成本;占用的运算资源少,包括cpu以及memory资源; 3.连续语音识别; 4.场景较为复杂;噪音(办公,居家,电视,自然,电器),远场(增...

2018-05-14 21:41:55

阅读数 4037

评论数 5

音频应用处理器性能benchmark

CSND已永久停更,最新版唯一来源点击下面链接跳转: 语音增强和语音识别网页书 处理器类别 1.Analog Devices(SHARC, Blackfin, SigmaDSP) 2.TI(c55, c67x,c66x) 3.ARM cortex-M4/M7; cortex-A8/A9...

2018-05-10 14:43:02

阅读数 392

评论数 0

舒适噪声生成算法及其实现

CSND已永久停更,最新版唯一来源点击下面链接跳转: 语音增强和语音识别网页书 舒适生成算法CNG(comfort noise generation)   舒适噪声应用在实时语音通信(VoIP,电话等)场景中,主要解决两个问题,第一个是减小传输数据量,进而减小传输带宽的要求,这是因为50%的...

2018-05-05 22:48:59

阅读数 1203

评论数 0

Kaldi HMM拓扑和状态转换模型

HMM拓扑 使用c++的HmmTopology来描述音素的HMM拓扑。其描述的一个实例(3-state Bakis模型)如下: Topology> TopologyEntry> ForPhones&am...

2017-11-10 09:20:48

阅读数 2208

评论数 1

Kaldi知识点汇集

特征提取MFCCcompute-mfcc-feats.ccCreate MFCC feature files. Usage: compute-mfcc-feats [options...] <wav-rspecifier> &...

2017-11-05 11:21:45

阅读数 1707

评论数 0

Kaldi声学模型训练

支持标准的基于ML训练的模型 线性变换,如LDA,HLDA,MLLT/STC 基于fMLLR,MLLR的说话人自适应 支持混合系统 支持SGMMs 基于fMLLR的说话人识别 模型代码,可以容易的修改扩展 声学模型训练过程1.获得语料集的音频集和对应的文字集可以提供更精确的对齐,...

2017-11-04 14:08:55

阅读数 5239

评论数 0

EM算法

前一篇文章提到了基于统计模型的VAD决策方法,在看《WebRTC之VAD算法,http://blog.csdn.net/shichaog/article/details/52399354》时,其计算概率使用的高斯参数是给定的,那么问题来了; 1.webrtc中给定的参数是如何得到的? 2....

2017-11-01 18:52:09

阅读数 1453

评论数 0

VAD综述

VAD广泛应用于语音编码(网络/无线/有线传输),说话认识和语音识别(ASR,基于机器学习的方法,也是经过VAD标注后的语音数据用于训练的,准确标注真实场景的带噪语音比较重要)。VAD的准确对前端算法也是比较关键的,这里所说的是语音/非语音(非语音/静音)检测,一个VAD系统通常包括两个部分,特征...

2017-10-17 09:51:53

阅读数 6431

评论数 0

语音识别-信号处理篇

连接前端和后端的语音识别(ASR)的关键是给到后端(根据特征判定词/句)系统的特征类型和特征质量,对于传统的语音识别系统常采用MFCC(mel-frequency ceptral coefficients),这个特征对于高斯白噪声和混响具有鲁棒性,对于有色和相干干扰,常采用一阶和二阶微分减小其对M...

2017-10-08 09:21:11

阅读数 4926

评论数 1

基本信号处理

如何根据滤波器系数得到幅频和相频相应使用MATLABb=1; a=[...]; fvtool(b,a)球坐标和直角坐标转换公式 转换公式: 球坐标系(r,θ,φ)与直角坐标系(x,y,z)的转换关系: x=rsinθcosφ y=rsinθsinφ z=rco...

2017-09-25 21:00:36

阅读数 619

评论数 0

模拟域频率与数字域频率关系

数字频率于模拟频率互相转化的公式如下: ω=2πffs\omega=\frac{2\pi f}{f_s} 通常所说的频率,在没有特别指明的情况下,指的是模拟频率,其单位为赫兹(HzHz),或者为1/秒(1/s1/s),数学符号用ff来表示。以赫兹表示的模拟频率表示的是每秒时间内信号变化的周...

2017-09-25 16:02:00

阅读数 2404

评论数 0

code profiling

本文基于c/c++。perf可以使用perf list列出所有支持的event。perf工具支持硬件和软件事件,硬件事件由硬件计数器测量。 常关心的硬件事件如下:cpu-cycles OR cycles instructions cache-references cache-misses...

2017-09-23 22:08:58

阅读数 1122

评论数 0

openwrt调试用到的

NFSUbuntuPC端sudo apt-get install nfs-kernel-server sudo /etc/init.d/nfs-kernel-server startvim /etc/exports 该文件写入 /home/gsc/nfs 10.99.*.*(rw,sync,no_...

2017-09-12 09:47:30

阅读数 787

评论数 0

tensorflow android 关键词 激活

工程源码在代码我已托管到github上了。https://github.com/shichaog/tensorflow-android-speech-kws这是基于tensorflow 官网的一个例子。Android tensorflow API private static final Str...

2017-08-27 22:11:39

阅读数 739

评论数 2

子带技术

语音信号是宽带信号,根据奈奎斯特采样定理,采样率为16kHz的语音信号的有效带宽是8KHz,不论是对于降噪,aec,vad,波束形成亦或是logfbank特征提取,我们都期望更精细的处理以提高准确性,因为有时噪声就是带限信号,而回声消除要能处理的时间比较长,就需要滤波器抽头数比较多,这样积累的数据...

2017-08-18 18:42:48

阅读数 2537

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭