![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
研二-语音合成
ruclion
天上一日,地下十年
展开
-
准备开题
最近忙着赶论文和开题, 很多东西放在了印象笔记和git上, 没有往csdn搬. 回头再说吧.下面的文字也是临时当个网盘用, 等等就删了code-switched TTS 语言片段切换的语音合成 mixed-lingual TTS 混合语言的语音合成应用场景是生活中涉及到一句话中涉及到中文和英文的部分,比如说外国人在中国生活的时候就会反复使用或者是香港,香港的中英混杂的现象,然后更更简单...原创 2020-01-30 19:23:42 · 465 阅读 · 0 评论 -
DevilFruit: Vocoder之LJSpeech训练的WaveGlow
目录LJS_WaveGlow用法bash脚本文档: 模型来源LJS_WaveGlow用法bash脚本文档: 模型来源原创 2019-11-23 18:01:48 · 619 阅读 · 1 评论 -
Maybe数据集ObscureMoon(闭月)
构建数据集思路1.覆盖尽量多的"东西"."东西"可能是字, 拼音, 音节, 需要请教.2.详细了解录音环境, 老师的倾向. 进行传统语音信号统计.3.使用教育下慢音时, 如何设计语料.4.额外思考如何使用学习强国中标准的文章版TTS数据.构建TTS标准数据集1.建立文件夹Maybe_ObscureMoon2.解压文件夹zhaodan_2200.zip把解压出来的文件都cp到May...原创 2019-11-16 17:05:52 · 252 阅读 · 3 评论 -
Fast Speech,同时关注可控制语速.
在Monster上.先跑通GitHubunzip ali…zip先跳过pre data LJ, 明天和标贝的一起准备.直接都是用pre-model:前两个gdown百度网盘:wget -c --referer=https://pan.baidu.com/s/1by3-8t3A6uihK8K9IFZ7rg -O Baidu.thing "百度云实际下载地址"...原创 2019-11-14 22:20:57 · 1019 阅读 · 1 评论 -
Tacotron-2-voiceEncodeRnn-transferLearning(CorentinJ/Real-Time-Voice-Cloning)初始化
先跑通pre-train1.pip install -r requirements.txt需要去掉tensorflow那块, 我们lab10上的不叫gpu2.下载googleDrive中的文件.https://stackoverflow.com/questions/25010369/wget-curl-large-file-from-google-drive...原创 2019-11-14 21:29:54 · 1150 阅读 · 1 评论 -
从SPE-phoneme版本更改为Graphyme版本
目录复制改Train改Text测试复制SPE-phoneme版本,删除logs改Train更换训练的文本.复制LDE-Graphyme的, 使用Graphyme_mix_train.txt改Text更换为Graphyme_mix_symbols.pytext.py复制SPE的.测试测试成功....原创 2019-11-13 21:39:41 · 131 阅读 · 0 评论 -
语音信号处理在Tacotron实战代码中的应用
目录理论FFT理论FFT等回学校再弄吧. 看老师的ppt.原创 2019-11-12 10:17:28 · 289 阅读 · 0 评论 -
tensorboard的使用(以Tacotron-1-car20为例)
目录调用数据PROJECTORscalar代码调用在有envent的地方:tensorboard --logdir=./ --host=0.0.0.0 --port=8880数据PROJECTORPROJECTOR用于将高维向量进行可视化,通过PCA,T-SNE等方法将高维向量投影到三维坐标系。https://zhuanlan.zhihu.com/p/24252690scalar...原创 2019-11-12 10:16:56 · 163 阅读 · 0 评论 -
Tactron-1-car20-LDE初始化
先跑通LJSpeech1.v100-monsterLJdata在外面, 更改datasets/LJ/prepare中的basedir.2.路径和模块问题import sysimport os#print(sys.path)#print(os.getcwd())sys.path.append(os.getcwd())3.关注LJSPeech的|标准化, 在已有实验是不是错误的.4...原创 2019-11-06 21:36:20 · 462 阅读 · 0 评论 -
Tacotron-1严格复现CUHK-Mix-Language论文
We clip gradients when their global norm ex-ceeds 1 and use parallel-mode monotonic attention with initial en-ergy function scalar bias set to -1.https://www.tensorflow.org/versions/r1.15/api_docs/py...原创 2019-11-01 14:48:18 · 275 阅读 · 0 评论 -
研究英伟达Tacotron-2的精度潜力
AMP精读问题单核训练WaveGlow效果最好. 为什么?复现单核WaveGlow用Biao-Bei First版本.先跑跑看看amp和DDP的情况.git版本NV_GPU='7' nvidia-docker run --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 -it --rm --ipc=host -v $PWD...原创 2019-10-25 16:22:05 · 561 阅读 · 0 评论 -
中文语音合成综合评测一(可懂度)
可懂度描述为什么mel而不用:Tacotron-2The inputs to WaveNet (linguistic features, predicted log fundamental frequency(F0), and phoneme durations)原创 2019-10-21 16:32:21 · 1985 阅读 · 0 评论 -
语音展示Demo
目录Github Pages实例仿CUHKGithub Pages实例仿CUHKhttps://csttsdemo.github.io/原创 2019-10-18 17:39:00 · 371 阅读 · 0 评论 -
Tacotron2 NVIDIA版本使用Biao-Bei数据集
目录代码版本尚未补充完整!!!预处理数据bash脚本'/r'错误仿LJS预处理提取mel启动docker训练合成WaveGlow训练接着ckpt训练代码版本https://git.maybe.io/russell19/tacotron-2-nvidia2743077a94e53b71c5fad193a880a3f2d169e637尚未补充完整!!!预处理数据bash脚本'/r’错误...原创 2019-10-18 17:37:01 · 1673 阅读 · 1 评论 -
Tacotron2 NVIDIA版本优化停顿问题之Biao-Bei数据PhonePrssCrystal
目录尚未补充完整!!!预处理数据bash脚本'/r'错误仿LJS预处理提取mel改代码启动docker训练合成第一次实验失败--更正先测试问题问题1问题2问题3尚未补充完整!!!预处理数据bash脚本'/r’错误sed -i 's/\r$//' filename整个文件夹for i in *;do if [[ -f $i ]]; then sed仿LJS预处理下载, 解压, 重采...原创 2019-10-17 15:05:21 · 1016 阅读 · 1 评论 -
基于DNN的韵律结构预测
目录Crystal分词与词性标贝数据师兄论文字典论文Crystal分词与词性http://thulac.thunlp.org/标贝数据https://www.data-baker.com/open_source.html师兄论文https://drive.google.com/open?id=1rqxEx0WhBl4EY6g69KkdkhtTvHvNPIcv字典论文Boostin...原创 2019-10-16 20:25:01 · 553 阅读 · 0 评论 -
Pycharm为核心在构建服务器端深度学习语音合成程序时的配置和技巧
目录服务器端程序交互项目映射相关1. 简介2. Pycharm远程映射配置编辑器相关1. 代码提示版本控制服务器端程序交互项目映射相关1. 简介把远程的项目映射到本地, 并且保证本地更改后, 一定能够上传到远端. 但有如下隐患:假设不直接修改远端代码./ 其实也可以尝试单独修改远端, 看能不能(自动)下载同步.首先写代码前确保先把remote down下来.修改代码后, 设置为C...原创 2019-10-11 23:04:22 · 244 阅读 · 0 评论 -
接口: Phoneme的放出no-ref-no-vae/mix-phoneme版本的, 只要中文声音
1. c++编译并使用.sog++ demo.cpp CrystalDll.so -o mainexport LD_LIBRARY_PATH="./"./main2. 对接CrystalTTS的边界情况和标贝数据的边界情况以及声韵母统一.CrystalTTS:这是个测试,有没有装你好啊汪仔。zh-e4|sh-iy4|g-e5|@c-e4|sh-iy4|@。iou3|m-...原创 2019-10-08 17:32:07 · 342 阅读 · 0 评论 -
复现两篇论文, 结构实现细节进行说明.代码备份, 报告完成并备份.
Google: Voice clone and code-switching cross multi-language1.再仔细读一遍google论文中的language id和speaker id送入Decoder大结构的细节.目前用法可能比较弱, 使得音质不好, 或者口音clone不好, 但如没有说明, 则目前版本可以代表复现版本, 再加上另一篇(好多处加结构的对比试验), 可以...原创 2019-10-06 11:03:34 · 999 阅读 · 0 评论 -
Group Meeting about Cross Language and Polyglot TTS No.1
however the voices used for each language were disjoint.这句话是对这个结构的批判原创 2019-08-30 17:26:29 · 109 阅读 · 0 评论 -
Tacotron1 + WaveRNN 以及Tacotron2 + WaveNet 使用总结
系统本身配好了cuda10.1和pytorch1.10. 原来import torch, 尴尬 =.= 但是为了自己方便, 还是装个Anaconda吧. 在使用anaconda装python时,有时候路径可能没有加入到系统路径中,要手动加入: #将anaconda的bin目录加入PATH,根据版本不同。确定anaconda的名字,如果是默认的,python3.7生成anaconda3$...原创 2019-09-09 09:00:57 · 2844 阅读 · 0 评论 -
CN-Tacotron2 and a little CN-TTS (others)
Tacotron2-CN-Pytorchhttps://github.com/foamliu/Tacotron2-CN按照requirement来, pip install --user XXX. arch包的名字不同, 在google上带arch去搜,sudo pacman -S gtk3. python demo.py ImportError: /usr/lib/lib...原创 2019-09-11 23:25:07 · 1102 阅读 · 4 评论 -
思考论文的阅读方法
目前有很多论文要多, 对这一块有了一定的了解, 怎么去精读?不准备马上去做出来精炼的PPT, 太慢, 第一次目的是批注完所有的内容, 而且阅读过程可以跳跃....原创 2019-09-15 09:56:09 · 139 阅读 · 0 评论 -
Inter Speech19
内容有很多是来之与论文, PPT, 知乎的回答, 侵权就加上您的信息~ 谢谢.1. VQ vae 不懂.2.噪声加权的一个主要用途是测量音频设备中的残余噪声,通常在节目材料的安静时刻以嘶嘶声或嗡嗡声的形式出现。这里加权的目的是为了强调我们的耳朵最容易感知到的听觉频谱部分,并减弱对我们响度感知影响较小的部分,以便得到一个与主观效果很好相关的测量数据。3.https://colab.re...原创 2019-09-15 23:49:00 · 750 阅读 · 0 评论 -
简单的基于Tacotron2的中英文混语言合成, 包括code-switch和voice clone. 以及深入结构设计的探讨.
之前的讨论33. 韵律评测, 很重要.https://zhuanlan.zhihu.com/p/4324070134.复现了Tacotron2 中文和英文 单语言合成, 音质满足期望(忽略inference时间), 下一步方向在哪里, 如果想Expressive, 靠谱的方法有什么经验吗, 同时我尝试下混语言:expressive最简单用look up table就可以,不过需要标...原创 2019-09-17 16:12:38 · 4623 阅读 · 2 评论 -
VAE-Tacotron-2/1 以及 VQ-VAE的原理探讨与实现.
Tacotron (yanggeng1995)An implementation of VAE Tacotron speech synthesis in TensorFlow. (https://arxiv.org/abs/1812.04342)1.https://github.com/yanggeng1995/vae_tacotron.2.requirement.txt都满足.3...原创 2019-09-18 23:45:23 · 1693 阅读 · 1 评论 -
多说话人Tacotron2
Hparams设置:为了选择最佳的fft参数,我制作了一个griffin_lim_synthesis_tool笔记本, 您可以使用它来反转实际提取的梅尔/线性光谱图,并选择预处理的好坏程度。所有其他选项都在hparams.py中得到了很好的解释,并且具有有意义的名称,因此您可以尝试使用它们。Preprocessing:Preprocessing can then be started ...原创 2019-09-20 17:16:53 · 912 阅读 · 0 评论 -
Tacotron-2-google-full-structure 以及 过程中产生的灵感
1. speaker id 和 language id 放的位置:The synthesizer network uses the Tacotron 2 architecture [20], with additional inputs consisting of learned speaker (64-dim) and language embeddings (3-dim), concaten...原创 2019-09-20 18:26:53 · 332 阅读 · 0 评论 -
复现END-TO-END CODE-SWITCHED TTS WITH MIX OF MONOLINGUAL RECORDINGS论文, 理解以及代码, 以及实验结果.
Show us the samples please? By the way, you had better change the mel loss function into MAE and watch the alignment again.These plots show that BahdanauMonotonic Attention is better.What are the ...原创 2019-09-22 21:50:10 · 741 阅读 · 1 评论 -
使用新的v100服务器配置和注意事项
1. public key:https://blog.ipsfan.com/1492.htmlhttps://blog.csdn.net/weixin_41714277/article/details/79399270C:\Users\hjk\.ssh新建文件夹/maybe_infinity_futurehttps://blog.csdn.net/albertfly/artic...原创 2019-09-25 18:37:24 · 834 阅读 · 0 评论 -
搭建基于django的网页/APT用来迭代和展示TTS
https://cloud.tencent.com/developer/article/1483982https://www.cnblogs.com/LuckyZLi/p/9832590.htmlhttps://www.runoob.com/http/http-content-type.htmlsettings中必须要是大写https://www.runoob.com/python...原创 2019-10-02 11:26:38 · 126 阅读 · 0 评论 -
尝试nvidia的Tacotron-2和waveglow的结合, 并且着重考虑多GPU以及inference时的性能.
https://ngc.nvidia.com/catalog/model-scripts/nvidia:tacotron_2_and_waveglow_for_pytorchhttps://ngc.nvidia.com/catalog/model-scripts/nvidia:tacotron_2_and_waveglow_for_pytorch/quickStartGuidehttps:...原创 2019-10-04 18:04:04 · 1383 阅读 · 0 评论 -
10月份语音合成任务安排: 商业化的普通话合成 (质量, 速度, 准确度, 韵律)
-1.0 首先趁着国庆节把9月份的任务完成, 快速整理, 难的或者繁琐的作为10月份任务之一, 但不再拓展, 即使拓展, 也只是先记下来, 后来发现还是太多了, 记下来的在下午去完成, 上午8到12点学习新的.复现两篇论文, 结构实现细节进行说明, 训练步数+batch也标记, 并且以网页形式做出对比, 尤其是口音clone, 模仿着论文分析, 画出表格和图像 (如embedding vec...原创 2019-10-04 19:56:23 · 334 阅读 · 0 评论 -
2019-9月份末论文: "Break it down into text and timbre and accent factors", 主要为了跨语言voice clone
原创 2019-10-04 20:04:13 · 213 阅读 · 0 评论 -
FastSpeech复现, 以及自己线段树, 分块的想法.
原创 2019-10-04 20:09:28 · 640 阅读 · 2 评论 -
Tacotron-2 实验记录
Try the Std Version1. GetTacotron-2-master.zip fromhttps://github.com/Rayhane-mamah/Tacotron-22.UnzipTacotron-2-master.zip on Unbuntu3.Terminal:cp -r training_data ./Tacotron-2 #training_...原创 2019-08-30 16:15:22 · 3865 阅读 · 0 评论