JamesJuZhang
码龄11年
关注
提问 私信
  • 博客:1,088,231
    社区:42
    1,088,273
    总访问量
  • 98
    原创
  • 2,226,899
    排名
  • 794
    粉丝
  • 3
    铁粉

个人简介:Researcher and Engineer. Speech Production and Speech Synthesis.

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:天津市
  • 加入CSDN时间: 2014-01-22
博客简介:

James Zhang's Blog

博客描述:
Wave My Life.
查看详细资料
个人成就
  • 获得429次点赞
  • 内容获得115次评论
  • 获得1,941次收藏
创作历程
  • 4篇
    2019年
  • 2篇
    2017年
  • 6篇
    2016年
  • 24篇
    2015年
  • 76篇
    2014年
成就勋章
TA的专栏
  • LeetCode的那些事儿
  • Speech Synthesis
    5篇
  • Speaker Recognition
    2篇
  • Speech Signal Processing
    28篇
  • Machine Learning
    26篇
  • Speech Recognition
    29篇
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

WaveRNN相关原理以及细节介绍

在学习WaveRNN的过程中,除了原文之外呢,网上写的比较全面、细致的博客可以找到一篇(https://www.jianshu.com/p/b3019f2773ed)。首先,我们这里先转载一下这篇博客。然后,在此基础上又做了一些详细的介绍,特别是对于subscale的部分。简介 这篇博客主要内容是语音合成的新技术,WaveRNN, 谷歌最新提出的语音合成算法,可...
原创
发布博客 2019.10.25 ·
9829 阅读 ·
13 点赞 ·
0 评论 ·
20 收藏

LPCNet相关原理与细节介绍

推荐大家阅读如下文章, 非常详尽!https://zhuanlan.zhihu.com/p/54952637
原创
发布博客 2019.10.22 ·
3388 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

WaveNet相关原理及细节介绍

Neural vocoder层出不穷, 但是WaveNet仍然是重中之重。作为后续变种的基础和参考对比目标,还是需要先对WaveNet进行比较深入的了解,才能为后续演变后的vocoder的学习打下基础。这边文章算是查学习了网上很多相关资料的综合版本,做个云笔记,大家一起讨论学习。文章大概的一个形式是顺着原文的走势, 翻译的基础上加上细节的展开。摘要: 文章主要提...
原创
发布博客 2019.10.19 ·
27251 阅读 ·
65 点赞 ·
3 评论 ·
232 收藏

Tacotron-2:通过调节 WaveNet 对 Mel 频谱预测的自然 TTS 合成

根据论文:https://arxiv.org/abs/1712.05884首先第一部分为论文主体的翻译:摘要这篇文章描述了一个直接从文本合成语音的神经网络架构,Tacotron-2。该系统由两部分组成,首先是把字符向量(character embeddings)映射到梅尔声谱(mel-scale spectrograms)的循环序列到序列(seq2seq)结构的特征预测网络,之后连接一...
原创
发布博客 2019.02.12 ·
7317 阅读 ·
3 点赞 ·
0 评论 ·
21 收藏

声纹识别技术的现状、局限与趋势

那我们就从声纹识别的基本原理谈起,声纹识别是通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的,简单的说就是辨别某一句话是否是某一个人说的技术。该项技术最早是在40年代末由贝尔实验室开发,主要用于军事情报领域。随着该项技术的逐步发展,60年代末后期在美国的法医鉴定、法庭证据等领域都使用了该项技术,从1967年到现在,美国至少5000多个案件包括谋杀、强奸、敲诈勒索、走私毒品、赌博,政治腐败等都通过声纹识别技术提供了有效的线索和有力的证据。特别强调的是,声纹鉴别目前已经是公安部的标准,是可以作为
转载
发布博客 2017.11.26 ·
22089 阅读 ·
10 点赞 ·
0 评论 ·
53 收藏

声纹识别技术简介——化繁为简的艺术

声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术。从直觉上来说,声纹虽然不像人脸、指纹的个体差异那样直观可见,但由于每个人的声道、口腔和鼻腔也具有个体的差异性,因此反映到声音上也具有差异性。如果说将口腔看作声音的发射器,那作为接收器的人耳生来也具备辨别声音的能力。最直观的是当我们打电话给家里的时候,通过一声“喂?”就能准确地分辨出接电话的是爸妈或是兄弟姐妹,这种语音中承载的说话人身份信息的唯一性使得声纹也可以像人脸、指纹那样作为生物信息识别技术的生力军,辅助甚至替代传统的数字符号密码,在安
转载
发布博客 2017.11.26 ·
14625 阅读 ·
21 点赞 ·
2 评论 ·
91 收藏

双向长短时记忆循环神经网络详解(Bi-directional LSTM RNN)

1. Recurrent Neural Network (RNN)尽管从多层感知器(MLP)到循环神经网络(RNN)的扩展看起来微不足道,但是这对于序列的学习具有深远的意义。循环神经网络(RNN)的使用是用来处理序列数据的。在传统的神经网络中模型中,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题是无能为力的。比如,预测句子的下一个单词是什么,一般需要用到前面的单词
原创
发布博客 2016.07.21 ·
168345 阅读 ·
54 点赞 ·
12 评论 ·
378 收藏

宾西法尼亚大学强制对齐标注软件(P2FA)介绍以及使用说明

介绍宾夕法尼亚大学语音标签强制对齐(Penn Phonetics Lab Forced Aligner , P2FA) 是基于 HTK 的自动语音标注工具包。它包括美式英语的声学模型,用来强制对齐的 python 文件以及 readme 文件和一些例子。
原创
发布博客 2016.07.19 ·
8157 阅读 ·
2 点赞 ·
1 评论 ·
21 收藏

语音合成技术新手区&KALDI语音识别新手区

公告为了方便语音合成、语音识别入门者相互交流、互相学习帮助,特建:语音合成技术交流新手群857378993KALDI语音识别新手群 279295537
原创
发布博客 2016.06.13 ·
5316 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Ubuntu下安装CUDA 7.5教程——真正的简便

Ubuntu下安装CUDA 7.5教程——真正的简便
原创
发布博客 2016.05.24 ·
6595 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

Kaldi语音识别工具运行TIMIT数据库实例

Kaldi语音识别工具运行TIMIT数据库实例
原创
发布博客 2016.05.18 ·
5777 阅读 ·
0 点赞 ·
2 评论 ·
5 收藏

语音识别工具Kaldi环境配置及安装手册(更新加强版)

语音识别工具Kaldi环境配置及安装手册(更新加强版)
原创
发布博客 2016.05.05 ·
17264 阅读 ·
4 点赞 ·
1 评论 ·
40 收藏

人工智能领域中声源定位的研究与发展------第三章 展望

人工智能领域中声源定位的研究与发展------第三章 展望
原创
发布博客 2015.07.08 ·
3888 阅读 ·
4 点赞 ·
3 评论 ·
5 收藏

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (6)

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (6)
原创
发布博客 2015.07.04 ·
4022 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (5)

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (5)
原创
发布博客 2015.07.04 ·
4635 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (4)

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (4)
原创
发布博客 2015.07.04 ·
5130 阅读 ·
4 点赞 ·
0 评论 ·
10 收藏

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (3)

2.2.3 基于最大输出功率的可控波束形成技术该方法对麦克风所接收到的声源信号滤波并加权求和来形成波束,进而通过搜索声源可能的位置来引导波束,修改权值使传声器阵列的输出信号功率达到最大,波束输出功率最大的点就是声源的位置。传统的波束形成器的权值取决于各阵元上信号的相位延迟,而相位又与时延和声源到达延迟(DOA)有关,故又称为时延求和波束形成器。而现代的波束形成器则突破了上述局限,在进行时间校正的同...
原创
发布博客 2015.06.12 ·
12603 阅读 ·
7 点赞 ·
0 评论 ·
34 收藏

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (2)

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (2)
原创
发布博客 2015.04.25 ·
5711 阅读 ·
2 点赞 ·
0 评论 ·
16 收藏

人工智能领域中声源定位的研究与发展------第二章 声源定位系统 (1)

人工智能领域中声源定位的研究与发展------第二章 声源定位系统
原创
发布博客 2015.04.20 ·
9909 阅读 ·
7 点赞 ·
0 评论 ·
32 收藏

人工智能领域中声源定位的研究与发展------第一章 绪论

人工智能领域中声源定位的研究与发展------第一章 绪论
原创
发布博客 2015.04.20 ·
4901 阅读 ·
1 点赞 ·
1 评论 ·
4 收藏
加载更多