自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 在vscode中使用正则表达式删除python的注释

出于一些原因,需要删除所有的注释vscode中用全文搜索替换的功能点击红色按钮即可使用正则表达式。

2024-02-19 15:55:56 526 2

原创 windows下运行SyntaSpeech

SyntaSpeech 在windows运行的6点问题及解决方案

2022-06-08 16:21:07 273 4

原创 在windows上训练espnet/在wsl上训练espnet

espnet是语音领域一个常用的工具包里面有大量的shell脚本我目前的情况是有3个机器3张卡,其中2机器安装了Linux,跑espnet非常容易但是办公的机器安装了windows空闲着Windows觉得非常浪费,于是研究如何在windows上运行espnet。espnet官方是不支持windows的,为了执行shell脚本,我在windows上安装了wsl2(具体教程不赘述了)。在wsl2中编译运行都比较顺利,安装kaldi提特征也完全没问题,可能遇到的bug一般就是内存不够了,可

2022-05-31 16:42:58 826 2

原创 完全端到端语音合成JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text toSpeech 简单解读

abstract部分简单说了一下,一般的TTS系统都有声学部分和vocoder,通过中间特征mel谱连接,这个模型是e2e的,所以中间的声学特征不会mismatch,也不用finetune。而且移除了额外的alignment tool,实现在了espnet2上流程图如上,和fs2+hifigan没有什么区别不过在variance adaptor中,写的结构和开源的代码是一致的,也就是pitch和energy是音素级的,在fastspeech原始论文中是帧级的下面简介了一下fastspeech

2022-05-17 16:13:34 1331 2

原创 复现Your TTS使用coqui tts时计算SCL损失的梯度问题

Your TTS(https://arxiv.org/pdf/2112.02418v3.pdf)是基于VITS的多说话人多语言TTS,大部分的内容和VITS非常相近,大部分为实验部分。其中比较有意思的是增加了scl损失。损失也并不难理解,就是【生成出来的语音】和【原始语音】过一个speaker encoder出来的speaker embedding的余弦相似度。根据论文的说法,这个speaker encoder应该是pre-train出来的,在计算SCL损失的过程中,encoder的参数应该是固

2022-04-22 11:08:48 1162 3

原创 Linux 出现【结构需要清理】或者【structure needs cleaning】

网上有很多教程要删除数据底下这个不用,但是显示【结构需要清理】的都会被删掉,这个没有办法1首先出现"结构需要清理"说明磁盘文献问题,需要使用以下命令进行检查fsck -y /dev/sda4(磁盘路径,可以使用fdisk -l 查看所有设备使用情况)记得加-y 不然要输入很多y2 再次使用mount 命名进行挂载,即可挂载成功再次提醒大家,插拔sata硬盘和走线时候一定要慢一点!那个塑料很脆的,很容易掰折了,我已经成功掰折了2块硬盘接口了。。。...

2021-10-11 16:12:17 14170

原创 python多进程的简单模版

from concurrent.futures import ProcessPoolExecutorfrom functools import partialfrom multiprocessing import cpu_countfrom tqdm import tqdminput = [] #some inputout_dir = 'output' def run(args1, args2, ...): passdef multi_cpu_run(num_workers=.

2020-09-09 22:42:50 180

原创 FastSpeech2论文中文翻译

FastSpeech2论文的翻译,翻译的挺差的,大概是那意思只翻译了摘要、模型部分和实验部分摘要:高级的TTS模型像fastspeech 能够显著更快地合成语音相较于之前的自回归模型,而且质量相当。FastSpeech模型的训练依赖于一个自回归的教师模型为了时长的预测(为了提供更多的信息作为输入)和知识蒸馏(为了简化数据的分布在输出里),这种知识蒸馏能够解决一对多的映射问题(也就是相同文字下的多语音变化)在tts中。然而,Fastspeech有几个缺点:1、教师-学生的蒸馏管道是复杂的。2、

2020-06-24 01:20:06 4957

原创 gunicorn部署的flask,多进程日志问题,

使用flask时候,我们经常使用logging来写日志。但是gunicorn是多进程启动的,logging进程不安全!日志经常会缺,只有一部分日志。就算整合到gunicorn的日志中if __name__ != '__main__': gunicorn_logger = logging.getLogger('gunicorn.error') app.logger....

2020-04-30 14:47:10 3676

原创 Linux查找相关进程并kill

在服务器处理一些批量任务的时候,我们经常需要查找某些进程,并kill。如果通过ps找出来,再一个个记pid,再去kill效率很低。以some_process为例:ps -x | grep some_process | awk -F " "'{print $1}' | xargs -I {} kill {}这样可以kill所有相关进程了,当然,杀之前最好先ps -x | gre...

2020-03-19 19:32:50 936

原创 tensorflow的resize_images和pytorch的interpolate

最近在tensorflow v1和pytorch都有写。里面有写函数具有相同功能。现在的主要需求是把语音的mel谱tile hopsize倍,但是希望能平滑一些。推荐2个函数,一个是tensorflow的tf.image.resize_images一个是pytorch的torch.nn.functional.interpolate输入都是4维的数据,所以在送进去之前我都进行过e...

2020-03-19 02:44:04 2736

原创 pytorch的nn.ReflectionPad1d

最近在看一个torch的项目,用到了nn.ReflectionPad1d这个函数,随便一搜都是ReflectionPad2d的。于是喵了一眼官网,写的是真的清楚哇。比较懒,直接截个图,简单说一下。所谓Reflection就像照镜子一样。我再用【9,8,7,6】再来说说。这个函数里面的值可以是一个int,也可以是(int,int)这样的list或tuple。如果是一个int就左右pa...

2020-03-18 21:13:25 3407

原创 通过wav文件和text文件训练出phoneme文件的过程

环境:python2.7和python3.6最近训练的一个神经网络需要wav文件和phn文件作为自己输入。所有的数据库中都有wav文件,但是phoneme文件却不是每个数据库都有。TIMIT数据库中就PHN文件。先贴个PHN文件的图。SX127.PHN再看一下这句话的文本。后面就是这句话没问题,0-24679肯定就是时间了。我们看到时间是

2020-03-17 18:40:59 800 2

原创 关于wav文件读取的一个小问题(librosa和soundfile)

今天在跑melgan时候,发现GPU使用率低的感人。。原本以为是pytorch的dataloader的问题之后把num_worker改为0,用主进程进行读取数据。发现主要卡在了librosa的load上from librosa.core import loaddata, sr =load('test.wav', sr=16000)做了个小测试如下:原来在libros...

2020-03-17 18:34:38 5708 4

原创 tensorflow限制使用某块显卡

在服务器上运行tensorflow的时候,我们有的程序可能只会使用到一块显卡,但是服务器上有很多显卡,如果一起用主要2个问题。1.显存可能会都被占满2.不指定的话总会默认使用第一个。虽然在程序里面也可以指定使用哪块显卡,但是我觉得不如在命令上加个参数实用。CUDA_VISIBLE_DEVICES=3,4 python demo.py上面这个命令就是只给demo.py使用3和4两

2018-01-31 17:10:54 1351

原创 关于管道 | 的一个小tip

ls |xargs du -sh通过上面这行命令发现 xargs 真的很好用mark一下xargs虽然写在了前面,但是他是后面命令的一个参数内容就是管道前面命令的输出上面这个命令是查看这个文件夹下所有文件及文件夹的大小

2018-01-30 11:12:51 152

原创 librosa的安装

在很多设计到语音识别合成等方面的项目里经常用到python的一个包librosa但是这个包直接用pip安装容易出现GCC的CXXABI一些各种各样的问题推荐使用conda安装但是conda的源在国外下面这个是conda换源的命令其中 https://example.com 可以随意更换底部的源conda config --add channels https://e

2018-01-29 13:21:42 4915 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除