James Zhang's Blog

Wave My Life.

KALDI语音识别新手区

KALDI语音识别新手区

2016-06-13 17:17:54

阅读数 4167

评论数 0

Tacotron-2:通过调节 WaveNet 对 Mel 频谱预测的自然 TTS 合成

根据论文:https://arxiv.org/abs/1712.05884 首先第一部分为论文主体的翻译: 摘要 这篇文章描述了一个直接从文本合成语音的神经网络架构,Tacotron-2。该系统由两部分组成,首先是把字符向量(character embeddings)映射到梅尔声谱(mel-...

2019-02-12 01:59:51

阅读数 944

评论数 1

声纹识别技术的现状、局限与趋势

那我们就从声纹识别的基本原理谈起,声纹识别是通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的,简单的说就是辨别某一句话是否是某一个人说的技术。 该项技术最早是在40年代末由贝尔实验室开发,主要用于军事情报领域。随着该项技术的逐步发展,60年代末后期在美国的法医鉴定、法庭证据等领域都使...

2017-11-26 14:31:25

阅读数 8807

评论数 0

声纹识别技术简介——化繁为简的艺术

声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术。从直觉上来说,声纹虽然不像人脸、指纹的个体差异那样直观可见,但由于每个人的声道、口腔和鼻腔也具有个体的差异性,因此反映到声音上也具有差异性。如果说将口腔看作声音的发射器,那作为接收器的人耳生来也具备辨别声音的能力。 最直观的是当我们...

2017-11-26 14:20:20

阅读数 7191

评论数 1

双向长短时记忆循环神经网络详解(Bi-directional LSTM RNN)

1. Recurrent Neural Network (RNN)尽管从多层感知器(MLP)到循环神经网络(RNN)的扩展看起来微不足道,但是这对于序列的学习具有深远的意义。循环神经网络(RNN)的使用是用来处理序列数据的。在传统的神经网络中模型中,层与层之间是全连接的,每层之间的节点是无连接的。...

2016-07-21 16:15:58

阅读数 87408

评论数 5

宾西法尼亚大学强制对齐标注软件(P2FA)介绍以及使用说明

介绍宾夕法尼亚大学语音标签强制对齐(Penn Phonetics Lab Forced Aligner , P2FA) 是基于 HTK 的自动语音标注工具包。它包括美式英语的声学模型,用来强制对齐的 python 文件以及 readme 文件和一些例子。

2016-07-19 01:30:09

阅读数 4158

评论数 1

Ubuntu下安装CUDA 7.5教程——真正的简便

Ubuntu下安装CUDA 7.5教程——真正的简便

2016-05-24 00:36:17

阅读数 5738

评论数 1

Kaldi语音识别工具运行TIMIT数据库实例

Kaldi语音识别工具运行TIMIT数据库实例

2016-05-18 18:12:03

阅读数 4234

评论数 2

语音识别工具Kaldi环境配置及安装手册(更新加强版)

语音识别工具Kaldi环境配置及安装手册(更新加强版)

2016-05-05 22:21:32

阅读数 11705

评论数 0

人工智能领域中声源定位的研究与发展------第三章 展望

人工智能领域中声源定位的研究与发展------第三章 展望

2015-07-08 16:37:18

阅读数 2710

评论数 3

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (6)

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (6)

2015-07-04 02:01:02

阅读数 2919

评论数 0

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (5)

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (5)

2015-07-04 01:44:39

阅读数 3352

评论数 0

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (4)

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (4)

2015-07-04 01:39:57

阅读数 3767

评论数 0

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (3)

2.2.3 基于最大输出功率的可控波束形成技术该方法对麦克风所接收到的声源信号滤波并加权求和来形成波束,进而通过搜索声源可能的位置来引导波束,修改权值使传声器阵列的输出信号功率达到最大,波束输出功率最大的点就是声源的位置。传统的波束形成器的权值取决于各阵元上信号的相位延迟,而相位又与时延和声源到达...

2015-06-12 14:09:35

阅读数 7198

评论数 0

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (2)

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (2)

2015-04-25 00:40:42

阅读数 4149

评论数 0

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (1)

人工智能领域中声源定位的研究与发展------第二章 声源定位系统

2015-04-20 23:02:34

阅读数 5116

评论数 0

人工智能领域中声源定位的研究与发展------第一章 绪论

人工智能领域中声源定位的研究与发展------第一章 绪论

2015-04-20 22:58:36

阅读数 3038

评论数 1

Convolution Neural Network (CNN) 原理与实现

本文结合Deep learning的一个应用,Convolution Neural Network 进行一些基本应用,参考Lecun的Document 0.1进行部分拓展,与结果展示(in python)。 分为以下几部分: 1. Convolution(卷积) 2. Pooling(降采样...

2015-04-18 03:08:02

阅读数 2379

评论数 0

GMM-HMM语音识别模型 原理篇

本文简明讲述GMM-HMM在语音识别上的原理,建模和测试过程。这篇blog只回答三个问题: 1. 什么是Hidden Markov Model? HMM要解决的三个问题: 1) Likelihood 2) Decoding 3) Training 2. GMM是...

2015-04-18 02:59:57

阅读数 4638

评论数 0

Coursera Machine Learning 学习笔记(十四)

Coursera Machine Learning 学习笔记(十四)

2015-04-05 01:04:55

阅读数 1727

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭