自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(135)
  • 收藏
  • 关注

原创 【ST】M2BART

语音和语言模型向着统一的方向发展,一个单独的模型可以解决200种语言的翻译和100种语言的转写。统一的模型简化了开发,部署,更重要的是在低资源的音频上实现了知识的迁移。这篇论文引入了M2BART,一个流式的多语言和多模态的encoder-decoder模型。他应用了自监督的speech tokenizer, 建立起语音和文本之间的桥梁。用统一的学习目标学习单模态和多模态知识,应用unsupervised 和 supervised的数据。

2024-05-15 00:55:22 810

原创 【S2ST】TranSentence: Speech-to-speech Translation via Language-agnostic Sentence-level Speech Encodin

传统的方法需要parallel的语音训练,这个工作中引入了,不需要parallel的语言数据。为了摆脱对平行语料的依赖,应用了与语言无关的句子级别的语义信息。尽管训练只用了单语言数据,推理的时候可以产生target language的语音。同样的也在多语言speech-to-speech场景下做了实验,超过了之前的方法。

2024-05-11 21:10:52 602

原创 【SpeechLLM】SPIRIT-LM: Interleaved Spoken and Written Language Model

可以自由组合文本和语音实现ASR和TTS还有语音分类,有两个版本,base version(只用了speech semantic units)和 expressive version(加入了pitch 和 style units)。

2024-03-09 22:29:57 1191

原创 【S2ST】PolyVoice: Language Models for Speech to Speech Translation

two LM-based components: a S2UT front-end for translation and a U2S back-end for synthesis.An extra language model for duration prediction.

2024-03-09 17:06:35 544

原创 【S2ST】UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units

Direct S2ST 由于简单的pipeline,从而实现了更快的推理速度,本文介绍了UnitY, 一个两阶段的方法。首先产生文本的表示,然后预测音频的离散序列。应用了subword prediction在第一阶段的decoder,新颖的第二阶段的decoder结构设计和搜索策略,从而实现了模型性能的提升。为了利用大量未标记的文本数据,本文基于自监督去噪自动编码任务预训练第一阶段文本解码器。

2023-12-15 18:30:16 1232

原创 【S2ST】Enhanced Direct S2ST Translation Using Self-supervised Pre-training and Data Augmentation

与自动语音识别 (ASR)、机器翻译 (MT) 和文本到语音 (TTS) 合成等传统级联系统可用的数据量相比,直接语音翻译 (S2ST) 模型存在数据稀缺问题。使用未标记的语音数据和数据增强进行自监督预训练来解决这个问题。得到了6.6-12.1 BLEU 的提升。

2023-12-11 16:15:41 912

原创 【S2ST】Direct Speech-to-Speech Translation With Discrete Units

应用自监督方法,生成target speech离散的units(S2UT), 从离散的units建模speech。当target text可以获得时,本文设计了一个语音和文本联合训练的框架,可以同时产生文本和语音两个模态的输出。在Fisher SpanishEnglish dataset数据集上,与Transformer Translatotron相比提升了6.7 BLEU。

2023-12-06 15:30:37 1108

原创 MFA安装

最简单的办法。

2023-06-05 18:41:01 201

原创 【VC】VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture

VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture

2023-02-20 23:42:04 984 1

原创 【AC】Accent Conversion论文整理

Accent Conversion论文整理

2023-02-09 22:43:03 441

原创 【debug】torch weight norm device

weight norm

2023-02-05 16:36:37 240

原创 MOS评分标准

mos tts

2023-01-15 23:02:09 1093

原创 【Pre-train】SpeechT5

speecht5

2022-10-17 19:23:39 2149

原创 【VC】END-TO-END ACCENT CONVERSION WITHOUT USING NATIVE UTTERANCES

Accent conversion

2022-09-24 21:07:54 509

原创 【VC】Converting Foreign Accent Speech Without a Reference

Accent Conversion

2022-09-23 16:26:53 1567 1

原创 【VC】accent conversion 口音转换论文

口音转换

2022-09-13 21:59:21 794

原创 【AM】Non-Attentive Tacotron

Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis Including Unsupervised Duration Modeling本文提出了Non-Attentive Tacotron(NAT),基于Tacotron2但是把Decoder与Encoder之间的Attention机制替换成了显式的时长预测。NAT可以用时长标注训练,也可以使用一个细粒度的VAE以无监督或半监督的形式训练。当使用时长标注可以获得时,NAT自

2022-04-05 22:57:14 2875 1

原创 【Vocoder】HifiGAN

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis官方code:hifigan基于GAN的声码器提升了合成效率降低了memory,但是合成的音质还没有做到像自回归的声码器和基于glow的声码器那么好。本文提出了一种高效率高保真的声码器,由于语音音频由具有不同周期的正弦信号组成,本文证明了对音频的周期性模式进行建模对于提高样本质量至关重要。在效率方面,在Tesla V100 G

2022-04-03 16:07:45 6287

原创 安装zsh&oh-my-zsh(没有root权限)

安装zsh&oh-my-zsh(没有root权限)想要安装智能丝滑的oh-my-zsh,首先check是否安装了zsh。zsh --version若zsh: command not found,则首先需要安装zsh,否则直接跳至step 2。step 1 安装zsh# 下载最新的zsh安装包wget -O zsh.tar.xz https://sourceforge.net/projects/zsh/files/latest/download --no-check-certificat

2022-03-16 18:00:03 3546

原创 【debug】error: no matching function for call to ‘max‘

code:#include <algorithm>max_freq = std::max(GetMaxFreq(), 10);报错:error: no matching function for call to ‘max’原因是max传入的两个参数数据类型不一致。

2022-03-10 19:34:40 1042

原创 【debug】TypeError: mel() takes 0 positional arguments but 2 positional arguments (and 3 keyword解决

# codelibrosa.filters.mel(hparams.sample_rate, hparams.n_fft, n_mels=hparams.acoustic_dim, fmin=hparams.fmin, fmax=hparams.fmax)报

2022-02-14 17:37:47 9120 2

原创 【debug】illegal hardware instruction

编译可以通过,运行时报错illegal hardware instruction,发现是vector的index越界了。

2021-12-07 20:30:05 1373

原创 【debug】PytorchStreamReader failed reading zip archive: failed finding central directory

libtorch(版本1.7)读取pytorch(版本1.4)中存的tensor时,报错PytorchStreamReader failed reading zip archive: failed finding central directorysave的代码:torch.save(cur_tensor, "cur_tensor.pt")尝试了网上的方法:torch.save(cur_tensor, "cur_tensor.pt", _use_new_zipfile_serialization=

2021-11-18 16:53:11 6803

原创 【分词】Long Short-Term Memory Neural Networks for Chinese Word Segmentation

1 Introduction比较古早的文章了,2015年的ACL,用LSTM做分词的开山之作?分词是中文自然语言处理的基础(在BERT出现之前),当下最流行的分词方法即把分词当做一个序列标注任务。用有监督的方法去训练模型,常用的有最大熵(ME)和条件随机场(CRF)。但是这些方法,特征需要经过精心的设计,很容易过拟合到训练语料。最近神经网络的兴起,降低了分词任务中特征工程的工作量。但目前的方法,用到的是一定窗长的上下文,这在一些需要很长上下文的场景下,会使模型的效果受限。比如:冬天 (winter),能

2021-11-16 00:08:32 972

原创 语音合成公开数据集链接

英文:LJSpeech: ljspeechVCTK:vctkLibriTTS: libritts中文:标贝中文女生开源数据集:baker

2021-10-21 20:49:23 2367

原创 【debug】gensim/models/keyedvectors.py EOFError: unexpected end of input; is count incorrect or file o

自己筛选了一些词的word2vec组成了新的word2vec文件,新文件内容如下:300, 200的 0.209092 -0.165459 -0.058054 0.281176 0.102982 0.099868 0.047287 ....是 0.088422 -0.220535 0.042321 0.280248 0.158567 0.022675 0.104318 ....gensim load word2vec文件时报错。检查发现是词数和文件头词的个数(即这里的300)不一致。...

2021-10-11 16:49:15 354

原创 jieba.posseg.cut分词结果与jieba.cut不一致

尝试jieba.posseg.cut(text, HMM=False)

2021-10-11 14:44:14 1083 3

原创 python混淆矩阵计算

from sklearn.metrics import confusion_matrixy_true = ["cat", "ant", "cat", "cat", "ant", "bird"]y_pred = ["ant", "ant", "cat", "cat", "ant", "cat"]cm = confusion_matrix(y_true, y_pred, labels=["ant", "bird", "cat"])print(cm.shape) # (3,3)计算多分类的recall

2021-10-08 17:58:48 521

原创 Docker中查看物理机的IP

ifconfig红框中即是物理机IP

2021-09-27 10:12:51 669

原创 【debug】 indexSelectLargeIndex: block: [x,0,0], thread: [x,0,0] Assertion `srcIndex < 解决

用了torch里面的nn.Embedding层,报错:RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED/pytorch/aten/src/ATen/native/cuda/Indexing.cu:658: indexSelectLargeIndex: block: [234,0,0], thread: [102,0,0] Assertion srcIndex < srcSelectDimSize failed.检查发现是输入nn.Em

2021-09-16 10:58:13 13977 9

原创 【debug】error: no matching function for call to ‘from_blob‘

应用libtorch将数据转为tensor时,报错error: no matching function for call to ‘from_blob’。检查发现并不是libtorch版本/libtorch没include进来等问题,是torch::from_blob(vec.data(), {1, row, clo})中的vec.data()的数据格式的问题,给的matrix报错,改成vec.data()就好了。...

2021-09-14 10:56:51 563

原创 【debug】RuntimeError: DataLoader worker (pid(s) xxx) exited unexpectedly

跑着跑着出现Bug:RuntimeError: DataLoader worker (pid(s) 689998) exited unexpectedly。worker开太大了,原来用的是16,改成12之后不会报错了。

2021-08-31 15:17:39 4153 1

原创 linux遍历文件夹下的绝对路径,并重定向到某个文件

for i in $(ls ./); do echo $(pwd)/$i >> /the/path/of/output/file;done

2021-08-29 23:10:49 424

原创 【debug】ld: unknown option: --no-as-needed

ld: unknown option: --no-as-needed

2021-08-16 18:48:15 1039

原创 【debug】Support for password authentication was removed on August 13, 2021.解决

今天用git push的时候发现出了问题:Support for password authentication was removed on August 13, 2021. Please use a personal access token instead.按照配置git ssh key后,删除原来的远端git remote rm origin在git项目下找到项目的ssh链接:重新添加远端即可。git remote add origin git@github.com:XXX/XXX.g

2021-08-15 17:55:08 504

原创 【debug】LibreSSL SSL_read: SSL_ERROR_SYSCALL, errno 60解决

拉取git的时候,总是拉不下来,出现LibreSSL SSL_read: SSL_ERROR_SYSCALL, errno 60。配置git的ssh key解决。首先在本地生成key,如果有就不用了,直接用~/.ssh/id_rsa.pub里面的key就好。ssh-keygen打开git界面的setting, 找到选择名字随便取, 将~/.ssh/id_rsa.pub粘贴进去即可。...

2021-08-12 15:25:02 8414

原创 安装指定cuda版本的torch

安装指定cuda版本的torch:pytorch

2021-08-10 16:56:48 3404

原创 【LM】轻量化BERT

BERT的一些轻量化变种1.AIBert2.DistillBert1.AIBert通过矩阵分解、共享参数来压缩BERT模型,压缩比主要由共享参数这个策略贡献。从模型参数的角度,AIBert相比BERT压缩了9倍;从inference的计算量的角度,AIBert与相比BERT没有本质的差异aibert。2.DistillBert...

2021-07-20 16:44:04 551

原创 docker 常用命令

检查docker是否安装成功:docker run hello-world查看正在运行的dockerdocker ps关闭docker# docker stop [CONTAINER ID]docker stop d6734fd5809c

2021-06-15 22:47:35 123

原创 【debug】docker: Cannot connect to the Docker daemon at unix:///var/run/docker.sock.

docker run hello-world时,报错:docker: Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?sudo service docker restart重启Docker引擎之后解决。

2021-06-09 18:30:26 119

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除