![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音识别
ilove_Moretz
这个作者很懒,什么都没留下…
展开
-
为什么ASR的输入要使用频谱特征
语音数据的raw data 一般是波形数据,波形数据画出图来后,纵轴是信号的幅度,横轴是时间。波形图是声音信号采样来的,采样点一般会比较多。比如用16kHZ采样,那么每秒就会有16000个数据点,这个输数量太大了。因此转换为频谱,数据量会少。但是这个说法我觉得不靠谱。一段20s录音,采样点是1600020 = 320,000。将这段录音用stft进行变换,得到161个窗口,每个窗口的维度是2501,总的数据量是1612501=402,661,这个数据量不比原始的小。还有一种说法是对于同一个字,同一个人用不原创 2020-06-10 19:41:12 · 345 阅读 · 0 评论 -
什么是end-to-end的模型
端到端的模型目前很流行,那么什么是端到端的模型呢,有没有一个很比较明确的解释?在[1]中,作者是这样说的。The entire model is trained jointly, from scratch, by optimizing the probability of the output sequence using a chain rule decomposition. We call this an end-to-end model because all the components of原创 2020-06-10 17:56:36 · 2429 阅读 · 1 评论 -
关于CTC的自我总结
引言今天组会又被老板教训了,原因是觉得我研究问题一直浮于表面,他看不到我对研究内容的推动。组会结束后,做了一下自我反思。这一周我大部分时间都在实验室,虽然会在座位上玩手机摸鱼,但是起码有一半的时间是在学习,一周下来不应该像老板说的那样毫无进展呀。我总结了两点原因,1、我的摸鱼时间可能有点多,学习时间可能还是不够。2、我没有认真做好总结,在组会的时候没能把学到的东西展现出来。对于第二点,我最近觉也越来越觉得自己缺乏展示自己成果的能力。事儿可能做了不少,但是没能展示出来,让别人知道,那就相当于白做。不只局限于原创 2020-06-07 20:36:47 · 1489 阅读 · 0 评论 -
什么是streaming ASR?
最近刚刚入坑ASR,在调研论文的时候看到一种类型叫做streaing ASR,有很多论文在streaming ASR上做文章。那么什么是streaming ASR 呢?我在一篇论文的摘要中找到了这么一段话:In this work, we propose a transformer based end-to-end ASR system for streaming ASR, where an output must be generated shortly after each spoken word[原创 2020-05-23 17:48:43 · 871 阅读 · 0 评论 -
DeepSpeech
最近被老板安排搞语音识别,懵懵逼逼的网上查了半天资料,准备先从DeepSpeech入手。在这里开个坑先,具体写什么还没想好,后面有了积累就回来把这个坑填上。原创 2020-05-19 18:10:29 · 266 阅读 · 0 评论