- 博客(112)
- 收藏
- 关注
原创 语音合成技术新手区&KALDI语音识别新手区
公告为了方便语音合成、语音识别入门者相互交流、互相学习帮助,特建:语音合成技术交流新手群857378993KALDI语音识别新手群 279295537
2016-06-13 17:17:54 5305
原创 WaveRNN相关原理以及细节介绍
在学习WaveRNN的过程中,除了原文之外呢,网上写的比较全面、细致的博客可以找到一篇(https://www.jianshu.com/p/b3019f2773ed)。首先,我们这里先转载一下这篇博客。然后,在此基础上又做了一些详细的介绍,特别是对于subscale的部分。简介 这篇博客主要内容是语音合成的新技术,WaveRNN, 谷歌最新提出的语音合成算法,可...
2019-10-25 14:35:48 9728
原创 WaveNet相关原理及细节介绍
Neural vocoder层出不穷, 但是WaveNet仍然是重中之重。作为后续变种的基础和参考对比目标,还是需要先对WaveNet进行比较深入的了解,才能为后续演变后的vocoder的学习打下基础。这边文章算是查学习了网上很多相关资料的综合版本,做个云笔记,大家一起讨论学习。文章大概的一个形式是顺着原文的走势, 翻译的基础上加上细节的展开。摘要: 文章主要提...
2019-10-19 00:45:37 26451 3
原创 Tacotron-2:通过调节 WaveNet 对 Mel 频谱预测的自然 TTS 合成
根据论文:https://arxiv.org/abs/1712.05884首先第一部分为论文主体的翻译:摘要这篇文章描述了一个直接从文本合成语音的神经网络架构,Tacotron-2。该系统由两部分组成,首先是把字符向量(character embeddings)映射到梅尔声谱(mel-scale spectrograms)的循环序列到序列(seq2seq)结构的特征预测网络,之后连接一...
2019-02-12 01:59:51 7266
转载 声纹识别技术的现状、局限与趋势
那我们就从声纹识别的基本原理谈起,声纹识别是通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的,简单的说就是辨别某一句话是否是某一个人说的技术。该项技术最早是在40年代末由贝尔实验室开发,主要用于军事情报领域。随着该项技术的逐步发展,60年代末后期在美国的法医鉴定、法庭证据等领域都使用了该项技术,从1967年到现在,美国至少5000多个案件包括谋杀、强奸、敲诈勒索、走私毒品、赌博,政治腐败等都通过声纹识别技术提供了有效的线索和有力的证据。特别强调的是,声纹鉴别目前已经是公安部的标准,是可以作为
2017-11-26 14:31:25 21930
转载 声纹识别技术简介——化繁为简的艺术
声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术。从直觉上来说,声纹虽然不像人脸、指纹的个体差异那样直观可见,但由于每个人的声道、口腔和鼻腔也具有个体的差异性,因此反映到声音上也具有差异性。如果说将口腔看作声音的发射器,那作为接收器的人耳生来也具备辨别声音的能力。最直观的是当我们打电话给家里的时候,通过一声“喂?”就能准确地分辨出接电话的是爸妈或是兄弟姐妹,这种语音中承载的说话人身份信息的唯一性使得声纹也可以像人脸、指纹那样作为生物信息识别技术的生力军,辅助甚至替代传统的数字符号密码,在安
2017-11-26 14:20:20 14505 2
原创 双向长短时记忆循环神经网络详解(Bi-directional LSTM RNN)
1. Recurrent Neural Network (RNN)尽管从多层感知器(MLP)到循环神经网络(RNN)的扩展看起来微不足道,但是这对于序列的学习具有深远的意义。循环神经网络(RNN)的使用是用来处理序列数据的。在传统的神经网络中模型中,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题是无能为力的。比如,预测句子的下一个单词是什么,一般需要用到前面的单词
2016-07-21 16:15:58 167926 12
原创 宾西法尼亚大学强制对齐标注软件(P2FA)介绍以及使用说明
介绍宾夕法尼亚大学语音标签强制对齐(Penn Phonetics Lab Forced Aligner , P2FA) 是基于 HTK 的自动语音标注工具包。它包括美式英语的声学模型,用来强制对齐的 python 文件以及 readme 文件和一些例子。
2016-07-19 01:30:09 8104 1
原创 人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (6)
人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (6)
2015-07-04 02:01:02 4013
原创 人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (5)
人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (5)
2015-07-04 01:44:39 4571
原创 人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (4)
人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (4)
2015-07-04 01:39:57 5104
原创 人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (3)
2.2.3 基于最大输出功率的可控波束形成技术该方法对麦克风所接收到的声源信号滤波并加权求和来形成波束,进而通过搜索声源可能的位置来引导波束,修改权值使传声器阵列的输出信号功率达到最大,波束输出功率最大的点就是声源的位置。传统的波束形成器的权值取决于各阵元上信号的相位延迟,而相位又与时延和声源到达延迟(DOA)有关,故又称为时延求和波束形成器。而现代的波束形成器则突破了上述局限,在进行时间校正的同...
2015-06-12 14:09:35 12557
原创 人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (2)
人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (2)
2015-04-25 00:40:42 5705
转载 Convolution Neural Network (CNN) 原理与实现
本文结合Deep learning的一个应用,Convolution Neural Network 进行一些基本应用,参考Lecun的Document 0.1进行部分拓展,与结果展示(in python)。分为以下几部分:1. Convolution(卷积)2. Pooling(降采样过程)3. CNN结构4. 跑实验下面分别介绍。
2015-04-18 03:08:02 2755
转载 GMM-HMM语音识别模型 原理篇
本文简明讲述GMM-HMM在语音识别上的原理,建模和测试过程。这篇blog只回答三个问题:1. 什么是Hidden Markov Model?HMM要解决的三个问题:1) Likelihood2) Decoding3) Training2. GMM是神马?怎样用GMM求某一音素(phoneme)的概率?3. GMM+HMM大法解决语音
2015-04-18 02:59:57 7126
原创 Ubuntu下(Linux+Apache+MYSQL+PHP, LAMP)环境搭建
Ubuntu下(Linux+Apache+MYSQL+PHP, LAMP)环境搭建
2014-09-02 23:49:28 2367
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人