- 博客(200)
- 资源 (2)
- 收藏
- 关注
原创 语音合成论文优选:声码器对比基准VocBench: A Neural Vocoder Benchmark for Speech Synthesis
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,
2021-12-07 11:40:53
2316
原创 语音识别(ASR)论文优选: 数据标注错误对RNN-T影响Investigation of Training Label Error Impact on RNN-T
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请
2021-12-03 15:21:03
1683
原创 2021年1~11月语音合成和语音识别论文月报
论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考。所有文章语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。读者有什么建议可以直接给我..
2021-12-01 11:09:04
1171
原创 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请
2021-11-29 22:37:03
1308
原创 语音识别(ASR)论文优选:关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition
对于ASR模型的偏差研究,因此本文提供了带诸多metadata属性的闲聊Casual Conversations语音测试集,并进行ASR偏差实验和影响因素的探索,为探索更加鲁棒的识别系统做贡献。
2021-11-26 17:26:49
1131
原创 语音识别(ASR)论文优选:A comparison of streaming models and data augmentation methods for robust speech recog
本文对比端到端流式ASR系统Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)的性能以及acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment等数据增广对比试验,主要为经验分享。
2021-11-22 13:18:03
1410
原创 语音识别(ASR)论文优选:可商用的开源30000小时ASR英文训练语料The People‘s Speech: A Large-Scale Diverse English Speech Recogn
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请
2021-11-19 16:47:26
2136
原创 语音识别(ASR)论文优选:挑战ASR规模极限Scaling ASR Improves Zero and Few Shot Learning
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请
2021-11-15 15:32:52
2042
原创 语音合成论文优选:DelightfulTTS: The Microsoft Speech Synthesis System for Blizzard Challenge 2021
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请
2021-11-10 11:09:03
2994
原创 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请
2021-11-04 18:34:01
4009
原创 2021年10月语音合成和语音识别论文月报
论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考。所有文章语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。读者有什么建议可以直..
2021-11-01 15:49:54
323
原创 语音合成论文优选:ESPnet2-TTS: Extending the Edge of TTS Research
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。文章同列统计可访问。语音合成http://yqli.tech/page/tts_paper.html。语音识别http://yqli.tech/page/asr_paper.html如有转载,请标注来源。欢迎关注微信公众号:低调奋进ESPnet2-TTS: Extending the Edge of TTS Research本文为Human Dataware Lab. Co., ...
2021-10-22 18:56:49
760
原创 2021年语音合成论文月报(1~9月)
论文统计每月更新一次,主要跟踪语音合成的发展状况(很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考,所有文章统计列表请访问http://yqli.tech/page/tts_paper.html)。读者有什么建议可以直接给我发消息,我将不断修改该统计。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。首先,看一下每月的文章数量,9月的论文比较少,只有19篇。粗略看下10月的文章,感觉10月文章数量将增加很多。(识别正在准备中)接下来..
2021-10-08 10:59:52
222
原创 语音合成(speech synthesis)方向十一:聊一聊增量式语音合成(iTTS)进化史
声明:工作以来主要从事TTS,VC以及ASR等等相关工作,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据 http://yqli.tech/page/data.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进(本文稍长,希望大家看完,而不是收藏之后等以后慢慢看)大家平时对Incremental TTS(iTTS)关注较少,可能会问iT.
2021-09-26 19:34:15
837
原创 机器学习论文:Robustness Analysis of Deep Learning Frameworks on Mobile Platforms
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进Robustness Analysis of Deep Learning Frameworks on Mobile Platforms本文为University of Calgary, Canada在2021.09.21更新的文章,主要对比tensorflowlite..
2021-09-22 19:23:36
249
原创 语音识别(ASR)论文优选:Tied & Reduced RNN-T Decoder
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进Tied & Reduced RNN-T Decoder本文为google在2021.09.15发表的文章,主要的工作为优化rnn-t的decoder模型大小,使其在性能不下降的情况下,速度提高3到4倍。具体的文章链接https://arxiv.org/pdf/210
2021-09-18 16:18:12
689
原创 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进Adapting GPT, GPT-2 and BERT Language Models forSpeechRecognition本文章是剑桥大学在2021.07.29更新的文章,主要研究GPT,GPT2和Bert等预训练语言模型对语音识别的优化作用。具体的文章链接htt..
2021-09-14 09:52:37
480
原创 人工智能AI论文优选:AI简史A BRIEF HISTORY OF AI: HOW TO PREVENT ANOTHER WINTER
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进A BRIEF HISTORY OF AI: HOW TO PREVENT ANOTHER WINTER (A CRITICAL REVIEW)本文为Amirhosein Toosi,Andrea Bottino,Babak Saboury和Eliot Siegel在2021
2021-09-08 17:08:20
1385
原创 语音识别(ASR)论文优选:Scalable Data Annotation Pipeline for High-Quality Large Speech Datasets Development
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进Scalable Data Annotation Pipeline for High-Quality Large Speech Datasets Development本文是数据公司Appen在2021.09.01更新的文章,主要工作是开源了一套高效高质量的数据标注流程和语音数据
2021-09-06 13:08:35
265
原创 2021年语音合成论文月报(1~8月)
论文统计每月更新一次,主要跟踪语音合成的发展状况(很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考,所有文章统计列表请访问http://yqli.tech/page/tts_paper.html)。读者有什么建议可以直接给我发消息,我将不断修改该统计。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。首先,先看一下每月的文章数量,8月的论文跟7月差不多,只有26篇,可能有些研究人员正在度假。(识别正在准备中,该工作量比合成要大许多,毕竟对识别分类不是太别熟..
2021-08-31 11:03:27
208
原创 语音合成论文优选:Perceptually Guided End-to-End Text-to-Speech With MOS Prediction
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。文章同列统计可访问。http://yqli.tech/page/tts_paper.html如有转载,请标注来源。欢迎关注微信公众号:低调奋进Perceptually Guided End-to-End Text-to-Speech With MOS Prediction本文为韩国科学技术高等研究院电气工程学院在2021.08.19更新的文章,主要使用MOSNet增加perceptual.
2021-08-27 09:56:46
259
原创 语音合成论文优选:A Unified Transformer-based Framework for Duplex Text Normalization
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。文章同列统计可访问。http://yqli.tech/page/tts_paper.html如有转载,请标注来源。欢迎关注微信公众号:低调奋进AUnified Transformer-based Framework for DuplexText Normalization本文为NVIDIA在2021.08.23更新的文章,主要的工作是使用一个模型对Text Normalization...
2021-08-24 17:27:08
404
原创 语音合成论文优选:RW-Resnet: A Novel Speech Anti-Spoofing Model Using Raw Waveform
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。文章同列统计可访问。http://yqli.tech/page/tts_paper.html如有转载,请标注来源。欢迎关注微信公众号:低调奋进RW-Resnet: A Novel Speech Anti-Spoofing Model Using Raw Waveform本文为上海大学在2021.08.12更新的文章,本篇文章主要使用原始波形做反欺诈的研究,具体的文章链接https://..
2021-08-13 19:55:54
506
原创 语音识别(ASR)论文优选:Dyn-ASR: Compact, Multilingual Speech Recognition via Spoken Language and Accent Ident
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进Dyn-ASR: Compact, Multilingual Speech Recognition via Spoken Language and Accent Identification本文为 Intel Corporation, Chandler, Arizona, USA
2021-08-10 12:29:25
313
原创 语音合成论文优选:语音合成综述(2021)
声明:工作以来主要从事TTS工作,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据 http://yqli.tech/page/data.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进我感觉一个领域的成熟标志就是综述文章的出现,从4月份到现在已经有三篇高质量的综述文章发出,本文主要向读者推荐该三篇文章。虽然我已经阅读了这三篇文章,但我不想直
2021-08-03 12:48:04
1215
1
原创 2021年语音合成论文月报(1~7月)
论文统计每月更新一次,主要跟踪语音合成的发展状况(很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考,所有文章统计列表请访问http://yqli.tech/page/tts_paper.html)。读者有什么建议可以直接给我发消息,我将不断修改该统计。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。首先,先看一下每月的文章数量,可能进入论文长草期,7月的论文明显下降很多,只有23篇。(现在正在做语音识别的论文统计,该工作量比合成要大许多)接下来,看...
2021-07-30 11:54:19
178
原创 语音识别(ASR)论文优选:Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models本文为Johns Hopkins University在2021.07.20更新的文章,主要做使用blockwise和mask-ctc来优化.
2021-07-22 15:49:33
707
1
原创 语音合成论文优选:AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要对文章简略概括。如有转载,请标注来源。欢迎关注微信公众号:低调奋进AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style本文为Microsoft Research Asia, China在2021.07.06更新的文章,主要做spontanous-style的adaptive tts,具体的文章链接 https://arxiv.org/pdf/2107.025
2021-07-15 17:37:29
613
1
原创 语音识别(ASR)论文优选:SynthASR: Unlocking Synthetic Data for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进SynthASR: Unlocking Synthetic Data for Speech Recognition本文为Alexa Speech, Amazon.com在2021.06.14更新的文章,主要使用tts合成的语料来优化ASR,从而提高ASR的性能,具体的文章链接
2021-07-14 12:03:22
378
1
原创 语音合成论文优选:Fre-GAN: Adversarial Frequency-consistent Audio Synthesis
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要对文章简略概括。如有转载,请标注来源。欢迎关注微信公众号:低调奋进低调奋进迎来新的伙伴加入,本文由迎风飞扬进行文章的分享,欢迎更多伙伴的加入。Fre-GAN: Adversarial Frequency-consistent Audio Synthesis此篇文章是Department of Artificial Intelligence, Korea University, Seoul, Korea在2021
2021-07-12 14:59:12
666
原创 语音合成论文优选:Effective and Differentiated Use of Control Information for Multi-speaker Speech Synthesis
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。欢迎关注微信公众号:低调奋进Effective and Differentiated Use of Control Information for Multi-speaker Speech Synthesis本文为小米在2021.07.07更新的文章,主要在multispeaker model和speaker adaptation上做了工作,使adap效果提高,具体的
2021-07-08 20:35:25
272
原创 语音合成论文优选:Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-Speech
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。欢迎关注微信公众号:低调奋进Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-Speech本文为Department of Artificial Intelligence, Korea University, Seoul, Korea在2021.06.05更新
2021-07-06 18:19:03
247
原创 2021年语音合成论文统计(1~6月)
论文统计每月更新一次,主要跟踪语音合成的发展状况(很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考,所有文章统计列表请访问http://yqli.tech/page/tts_paper.html)。读者有什么建议可以直接给我发消息,我将不断修改该统计。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。首先,先看一下每月的文章数量,相比于5月份,6月份的文章数量翻倍,当然这只是我搜集到的文章情况,必然还有部分遗漏。接下来,看一下每个方向的情况。由下面表格..
2021-07-01 09:48:56
196
原创 语音合成论文优选:GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。欢迎关注微信公众号:低调奋进GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis本文为Speech AI Lab, NCSOFT, Republic of Korea在2021.06.29更新的文章,主要把GAN在声学模型中的应用,从而提高自然度,具体文章链接
2021-06-30 13:15:21
470
原创 语音合成资料查询说明
文章转载请标明出处:微信公众号 低调奋进个人整理的语音合成资料相对来说还算完整,这里分享给大家,节省读者查找资料的时间。现在给大家详细说一下具体的查找页面。一语音合成论文列表实时更新语音合成每个领域的文章情况,其中我把每天统计的文章的excel放在on going,大家可以参考使用。另外,声明一下,使用我统计的资料也请表明出处。http://yqli.tech/page/tts_paper.html二语音合成资料列表很多官网论文集都很容易挂掉,比如icassp 202...
2021-06-24 12:21:14
299
原创 icassp 2021 语音合成文章总结
文章转载请标明出处:微信公众号 低调奋进icassp2021 会议在2021 六月6~11日举行,一共录取1757篇(语音领域的会议录取文章真的多,记得搞体系结构和数据领域相关的会议录取也就几十篇或者百篇,可以很容易的看个大概。个人毕业后就没发过文章,究其原因,比较渣~~),具体的文章列表参见https://2021.ieeeicassp.org/Papers/AcceptedPapers.asp。记得每年会议结束后都有好心人做文章总结,今年竟然没有等到,我就先梳理一下文章发表大概情况,对具.
2021-06-21 09:11:36
2950
1
原创 语音识别(ASR)论文优选:WeNet之U2++
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进以前阅读的是语音合成相关的代码,现在有机会做一些识别相关的工作,所以接下来也会整理识别相关的资料。U2++: Unified Two-pass BidirectionalEnd-to-end Model for Speech Recognition本文是出门问问联合西北工业.
2021-06-16 18:56:33
2248
原创 语音合成(speech synthesis)方向十:GAN在声学模型干了什么?
声明:工作以来主要从事TTS工作,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据 http://yqli.tech/page/data.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进本文整理一下GAN在语音合成声学模型上的研究,统计可能不全。GAN在语音合成中的应用更多是在声码器部分,而在声学模型部分的研究很少。使用GAN的目的更多解决过
2021-06-15 15:16:48
1384
原创 语音合成论文优选:Improving multi-speaker TTS prosody variance with a residual encoder and normalizing flows
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。欢迎关注微信公众号:低调奋进Improving multi-speaker TTS prosody variance with a residual encoder and normalizing flows本文为Alexa AI在2021.06.10更新的文章,主要优化multi-speaker模型的韵律问题,具体文章链接https://arxiv.org/pdf/
2021-06-11 12:35:00
474
1
原创 语音识别(ASR)论文优选:WeNet
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表http://yqli.tech/page/tts_paper.html TTS 开源数据http://yqli.tech/page/data.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进WeNet: Production Oriented Streaming and Non-streaming End-to-End Speech Recognition Tool..
2021-06-07 18:10:49
4177
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅