语音识别
文章平均质量分 65
傲娇的程序猿
这个作者很懒,什么都没留下…
展开
-
论文阅读:FASTEMIT: LOW-LATENCY STREAMING ASR WITH SEQUENCE-LEVEL EMISSION REGULARIZATION
论文阅读:FASTEMIT: LOW-LATENCY STREAMING ASR WITH SEQUENCE-LEVEL EMISSION REGULARIZATION下载链接:https://arxiv.org/abs/2010.11148主要概要: 本篇文章主要是介绍了一种名为FastEmit的正则化方法,以减少end-to-end streaming ASR的解码延时。主要内容: 如图一所示,红色为正常的解码路径,解码时...原创 2021-05-24 17:18:34 · 1564 阅读 · 0 评论 -
A BETTER AND FASTER END-TO-END MODEL FOR STREAMING ASR
论文阅读:A BETTER AND FASTER END-TO-END MODEL FOR STREAMING ASR下载链接:https://arxiv.org/abs/2011.10798主要内容: 本篇文章主要是想在解决end-2-end网络的延时问题的同时保持网络的解码效果。首先,文章中使用了一直昂 FastEmit的算法降低网络延时;然后文章提出了一种conformer+Cascaded Encoders的网络框架,以保证网络的解码效果。模型主要结构:...原创 2021-05-17 16:56:54 · 345 阅读 · 0 评论 -
论文阅读:META LEARNING FOR END-TO-END LOW-RESOURCE SPEECH RECOGNITION
论文阅读:META LEARNING FOR END-TO-END LOW-RESOURCE SPEECH RECOGNITION下载链接:https://arxiv.org/abs/1910.12094主要思想: 本篇文章的主要思想是利用meta learning实现低资源的ASR。 meta learning: learn to learn。主要是获取一种“学会学习”的能力,使其可以在获取已有“知识”的基础上快速学习新的任务。 具体可以参考这篇文章...原创 2021-04-25 20:52:31 · 372 阅读 · 0 评论 -
论文阅读:TRAINING ASR MODELS BY GENERATION OF CONTEXTUAL INFORMATION
(icassp2020)论文阅读:TRAINING ASR MODELS BY GENERATION OF CONTEXTUAL INFORMATION下载链接:https://arxiv.org/abs/1910.12367主要思想: 利用海量的弱监督数据和部分常规的标注数据进行e2e模型训练。【这里的弱监督数据主要指的是仅含有上下文相关文本的音频数据(English social media videos along with their respective titles an...原创 2021-04-16 15:44:27 · 141 阅读 · 0 评论 -
论文阅读:Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mix
语音识别阅读笔记-Bi-encoder Transformer Network for Mandarin-English Code-switchingSpeech Recognition using Mixture of Experts(interspeech 2020)下载链接:http://www.interspeech2020.org/index.php?m=content&c=index&a=show&catid=413&id=1277主要思想:原创 2021-03-24 11:21:07 · 725 阅读 · 1 评论 -
论文阅读:Memory Equipped Self-Attention for End-to-End Speech Recognition
语音识别阅读笔记-SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition(interspeech 2020)主要思想:文章分析了DFSMN和multihead-attention的优缺点,得出结论:Multihead-attention:主要学习单一特征的上下文依赖。DFSMN:主要是依赖于整个数据集的平均概率分布的学习数据的长时依赖。因此将二者结合可以使模型学习的更好。(DFSMN的相关解释原创 2021-03-19 17:43:01 · 451 阅读 · 0 评论 -
FFmpeg安装
ffmfeg是一个常用的音频处理软件,下面附上linux系统的安装步骤,方便各位使用:1、pip3 install ffmpeg2、到ffmpeg官网下载安装包。https://www.ffmpeg.org/然后解压tar -xjvf ffmpeg-4.2.1.tar.bz23、yum install -y yasm4、cd 到ffmpeg安装包5、....原创 2019-11-21 19:32:00 · 418 阅读 · 0 评论 -
语音识别——基本概念简介
写在前面:做了3年的图像,没想到到了工作要转成语音了。所以既来之,则安之。从今天开始记录自己从零开始的语音领域的学习,希望利用入职前这两三个月的时间把基础知识打好吧O(∩_∩)O一些基本的概念:音素(phone):语音的自然属性划分出来的最小语音单位。(可以理解为图像中的像素)。音素分为元音与辅音两大类。如汉语音节 ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。...原创 2019-03-14 10:58:57 · 858 阅读 · 2 评论 -
语音识别——kaldi安装与编译
1、安装下载源代码:git clone https://github.com/kaldi-asr/kaldi.git各目录功能:./tools目录下面全部都是Kaldi依赖的包。其中主要有:OpenFST:Weighted Finite State Transducer library,是一个用来构造有限状态自动机的库。我们知道隐马尔科夫模型就可以看成是一个有限状态自动机的。...原创 2019-03-14 16:03:22 · 1258 阅读 · 3 评论