- 博客(57)
- 资源 (42)
- 收藏
- 关注
转载 语音识别中的End2End模型: CTC, RNN-T与LAS
自动语音识别(Automatic Speech Recognition,简称ASR)是一项将机器学习与实际需要紧密结合的领域,应用场景如语音助手,聊天机器人,客服等等。今天就来比较一下比较流行的几种End-to-End的ASR模型。经典语音识别系统在了解End-to-End模型之前,我们先来看看经典的语音识别系统是怎样工作的以及为什么需要End-to-End模型。经典语音识别系统通常有如下几个组成部分:特征提取,如利用输入的waveform提取MFCC特征,然后再经过三个独立的模型再求得它们概率
2020-08-31 12:05:22 1986
转载 强大的端到端语音识别框架—RNN-T
前言:基于联结时序分类(CTC)的声学模型不再需要对训练的音频序列和文本序列进行强制对齐,实际上已经初步具备了端到端的声学模型建模能力。但是CTC模型进行声学建模存在着两个严重的瓶颈,一是缺乏语言模型建模能力,不能整合语言模型进行联合优化,二是不能建模模型输出之间的依赖关系。RNN-Transducer针对CTC的不足,进行了改进,使得模型具有了端到端联合优化、具有语言建模能力、便于实现Online语音识别等突出的优点, 更加适合语音任务。RNN-T介绍:RNN-Transducer模型实际上是
2020-08-31 11:46:08 4270
转载 白话CTC(connectionist temporal classification)算法讲解
https://blog.csdn.net/luodongri/article/details/77005948
2020-08-31 11:41:31 275
转载 WAV2LETTER ++:最快的开源语音识别系统
WAV2LETTER++:最快的开源语音识别系统Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve,Vitaliy Liptchinsky, Ronan CollobertFacebook AI研究原文请参见:https://arxiv.org/abs/1812.07625,感谢原作者,因译者才疏学浅,偶有纰漏,望不吝指出。本内容由灵声讯音频-语音算法实验室整理翻译,转载和使用..
2020-08-31 10:47:14 639
转载 机器翻译与自动文摘评价指标 BLEU 和 ROUGE
https://baijiahao.baidu.com/s?id=1655137746278637231&wfr=spider&for=pc
2020-08-31 09:31:01 418
转载 语音识别(ASR)评估指标-WER(字错误率)和SER(句错误率)
https://blog.csdn.net/sty945/article/details/80438587
2020-08-31 09:27:55 1493
转载 CTC (Connectionist Temporal Classification) 算法原理
https://www.cnblogs.com/shiyublog/p/10493348.html
2020-08-26 17:04:45 309
转载 BatchNormalization、LayerNormalization、InstanceNorm、GroupNorm、SwitchableNorm总结
https://blog.csdn.net/liuxiao214/article/details/81037416
2020-08-26 11:43:05 140
转载 使用概率编程和Pyro进行金融预测
原文链接:https://medium.com/@alexrachnog/financial-forecasting-with-probabilistic-programming-and-pyro-db68ab1a1dba图片来源 https://jmhl.org/research/大家好,我回来了!去年我发表了几篇利用神经网络做金融预测的教程,其中一些结果是有趣的,我觉得值得应用于真实交易应用中。如果你读过那些文章,你可能注意到,当你用某些机器学习模型拟合“随机”数据,并试图找...
2020-08-26 11:15:50 812
转载 变分推断以及在概率图模型中的应用
https://qianyang-hfut.blog.csdn.net/article/details/86644192https://blog.csdn.net/qy20115549/article/details/93074519链接:https://www.zhihu.com/question/41765860/answer/331070683来源:知乎最干的干货:首先,我们的原始目标是,需要根据已有数据推断需要的分布p;当p不容易表达,不能直接求解时,可以尝试用变分推断..
2020-08-26 10:52:03 903
转载 浅谈KL散度
浅谈KL散度一、第一种理解 相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain)。 KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。根...
2020-08-26 10:40:26 3546
原创 Hadamard Product
Hadamard Product是一种不一样的矩阵乘法,两个维数相同的矩阵“相乘”,得到另一个维数相同的矩阵。Hadamard Product图形表示Hadamard Product矩阵表示
2020-08-25 14:33:26 1566
转载 deconvolution;Atrous convolution;Depthwise separable convolution是什么?
文章目录 转置卷积(deconvolution) 微步卷积 空洞卷积(Atrous Convolution)/膨胀卷积 深度可分离卷积(Depthwise separable convolution) 转置卷积(deconvolution)转置卷积是一个将低维特征转换到高维特征。为什么叫做转置卷积呢?其实就是引入了转置的思想。假设我们现在有一个p维的向量Z,然后有个d维的向量X,p<d. 这样就会出现 Z = W·X,其中W的维度为(p,d),叫做转换矩阵. 现.
2020-08-24 19:16:45 259
原创 einsum满足你一切需要:深度学习中的爱因斯坦求和约定
https://zhuanlan.zhihu.com/p/44954540?utm_source=wechat_timelinehttps://zhuanlan.zhihu.com/p/101157166https://www.jianshu.com/p/27350d110caf
2020-08-24 11:51:05 125
转载 Neural Style Transfer 神经风格迁移详解
Neural Style Transfer 神经风格迁移详解今天和大家分享一个比较有意思的东西,Neural Style Transfer,神经风格迁移,简单说就是我们将一张普通的照片赋予它艺术作品风格。大家应该都知道风靡一时的prisma应用,这个应用背后的原理就是这个。我们选择一张普通的照片,再选择一张艺术作品,同时输入,经过神经风格转换,就能给这张照片赋予艺术的风格。那么是如何做到的呢?接下来看最早提出来神经风格迁移的是 Leon A. Gatys,他先后在2015年和2016年发表了两篇
2020-08-24 11:10:42 1578
转载 超分损失函数小结
原论文:Deep Learning for Image Super-resolution: A Survey1.Pixel Loss:用来度量生成图片和目标图片的像素级的差异1.1 L1 loss1.2 L2 loss1.3 Charbonnier loss:L1 Loss的变体,最后参数是一个很小常量(e.g., 1e − 3),为了使数值稳定像素损失是最常见的损失,通常L2损失能够对大的损失进行惩罚,但是在小的损失上无能为力,效果不如L1,像素损失实际上并没...
2020-08-24 10:53:54 3932
转载 格拉姆矩阵(Gram matrix)详细解读
目录基础知识-向量的内积 Gram matrix介绍 Gram matrix的应用-风格迁移一、基础知识-向量的内积1.1向量的内积定义:也叫向量的点乘,对两个向量执行内积运算,就是对这两个向量对应位一一相乘之后求和的操作,内积的结果是一个标量。1.2实例:a和b的内积公式为:1.3作用:内积判断向量a和向量b之间的夹角和方向关系a·b>0 方向基本相同,夹角在0°到90°之间 a·b=0 正交,相互垂直 a·b<0 方向...
2020-08-24 10:52:25 19397 4
转载 Domain Separation Networks
https://blog.csdn.net/weixin_37993251/article/details/91472097Abstract大规模数据收集和注释的成本常常使机器学习算法应用于新任务或数据集的成本高得令人望而却步。规避这一成本的一种方法是在自动提供注释的合成数据上训练模型。尽管这些模型很有吸引力,但它们往往无法从合成图像推广到真实图像,因此需要使用域自适应算法来操纵这些模型,然后才能成功应用。现有的方法要么侧重于将表示从一个域映射到另一个域,要么侧重于学习提取与提取域不变的特性。然而,
2020-08-24 10:27:06 646 1
转载 Coupled Generative Adversarial Networks
https://blog.csdn.net/carrierlxksuper/article/details/60479883这篇文章(NIPS2016)是基于Generative Adversarial Networks (GAN)而来的,GAN有两个部分,第一部分是生成器Generator,第二部分是判别器Discriminator。Generator输入时随机变量vector(噪声), 输出是一个经过层层反卷积出来的图片。 Discriminator是一个判别器,依次输入真实的图片和generato
2020-08-24 10:26:26 505
转载 对于DAN方法的解读-Learning Transferable Features with Deep Adaptation Networks
https://blog.csdn.net/weixin_40526176/article/details/79065861下面分为五个部分来讲解:一.研究背景二.本论文所解决的问题三.DAN方法四.实验部分五.结合自己的论文一.研究背景精简的说,研究表明:深度神经网络可以学习可迁移特征,这些特征用于域适应时在新的任务上表现出很好的泛化能力。然而由于深度特征随着网络层数的增加由一般到特殊转变,特征的可迁移能力在网络高层急剧下降,极大地增加了域之间的差...
2020-08-23 17:00:17 2815
转载 堆栈自编码器 Stacked AutoEncoder
https://blog.csdn.net/qq_38640439/article/details/102624044?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.chan
2020-08-23 16:55:49 2284
转载 神奇的深度迁移学习DDC:Deep Domain Confusion: Maximizing for Domain Invariance
https://blog.csdn.net/qq_24305433/article/details/802394121、简介数据样本不够怎么使用深度学习?大家第一时间想到的肯定是微调已经训练好的模型,像VGG、Inception、Resnet这样的模型,但是有时我们可能会发现,有时微调后的效果并不是很好,可能会需要微调好多层才能得到较好的效果,但是这往往需要大量的样本,但当我们仅有少量或没有带标注的数据时,我们就无法有效的通过微调网络来实现对新样本的识别。存在这一问题的主要原因是源数据与目标数据之间
2020-08-23 16:52:30 2176
转载 Maximum Mean Discrepancy理解(MMD)
https://blog.csdn.net/tunhuzhuang1836/article/details/78058184MMD理解1.定义MMD:maximum mean discrepancy。最大平均差异。参考网上定义为:基于两个分布的样本,通过寻找在样本空间上的连续函数f,求不同分布的样本在f上的函数值的均值,通过把两个均值作差可以得到两个分布对应于f的mean discrepancy。寻找一个f使得这个mean discrepancy有最大值,就得到了MMD。最后取MMD作为检验统计
2020-08-23 16:44:12 7731 4
转载 Cross-stitch Networks for Multi-task Learning
Cross-stitch Networks for Multi-task LearningCross-stitch Networks for Multi-task Learning 1. 问题 2. 十字绣结构(Cross-stitch architecture) 3. 实验设计 1. 问题假设我们有任务A和B,并且这两个任务存在一定的关联性。最常见的做法是:对相同的输入,A和B共享同一个输入特征提取网络,然后在同样的特征上,各自单独训练,得到最终结果。至于在哪里分开(独立),我们
2020-08-23 12:00:16 1289
原创 Hierarchical Attention Networks
https://blog.csdn.net/qq_24305433/article/details/80427159https://blog.csdn.net/qq_36047533/article/details/88671790https://blog.csdn.net/liuchonge/article/details/73610734
2020-08-23 11:41:51 218
转载 Triplet Loss, Ranking Loss, Margin Loss
不同于cross entry loss或者MSE等等,他们的目标去表征模型的输出与实际的输出差距是多少。但是ranking loss实际上是一种metric learning,他们学习的相对距离,而不在乎实际的值。由于在不同场景有不同的名字,包括 Contrastive Loss, Margin Loss, Hinge Loss or Triplet Loss.ranking loss 应用十分广泛,包括是二分类,例如人脸识别,是一个人不是一个人。ranking loss 有非常多的叫法,但是他们的
2020-08-23 11:26:58 1560 1
原创 记忆网络(Memory Network)
https://blog.csdn.net/u014248127/article/details/84894739https://zhuanlan.zhihu.com/p/32257642
2020-08-23 11:11:10 222
转载 一文看懂 Bahdanau 和 Luong 两种 Attention 机制的区别
https://zhuanlan.zhihu.com/p/129316415参考:Neural Machine Translation by Jointly Learning to Align and Translate Effective Approaches to Attention-based Neural Machine Translation Attention Variants BahdanauAttention与LuongAttention注意力机制简介-CSDN..
2020-08-23 10:45:39 704
转载 A Recipe for Training Neural Networks
http://karpathy.github.io/2019/04/25/recipe/#2-set-up-the-end-to-end-trainingevaluation-skeleton--get-dumb-baselinesSome few weeks ago Iposteda tweet on “the most common neural net mistakes”, listing a few common gotchas related to training neural n...
2020-08-21 16:34:02 455
转载 深度学习中的注意力模型
注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。人类的视觉注意力从注意力模型的命名方式看,很明显其借鉴了人类的注意力机制,因此,我们首先简单介绍人类视觉的选择性注意力机制。图1 人类的视觉注意力视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也..
2020-08-20 15:47:23 284
原创 LSTM的加速算法:QRNN和SRU
https://blog.csdn.net/SYSU_BOND/article/details/101156567
2020-08-19 19:01:26 837 1
转载 Recurrent Neural Network[SRU]
0.背景对于如机器翻译、语言模型、观点挖掘、问答系统等都依赖于RNN模型,而序列的前后依赖导致RNN并行化较为困难,所以其计算速度远没有CNN那么快。即使不管训练的耗时程度,部署时候只要模型稍微大点,实时性也会受到影响。Tao Lei等人基于对LSTM、GRU等模型的研究,提出了SRU模型。在保证速度的前提下,准确度也是没有多少损失。1.SRUTao Lei等人通过将每一时间步的主要计算部分,优化为不要去依赖之前时间步的完整计算,从而能够容易的并行化。其结果示意图如图1.1。图1.1 普通的
2020-08-19 18:58:36 727
原创 Model-Agnostic Meta-Learning (MAML)模型介绍及算法详解
https://zhuanlan.zhihu.com/p/57864886https://zhuanlan.zhihu.com/p/66926599https://blog.csdn.net/liz_Lee/article/dehttps://zhuanlan.zhihu.com/p/114184963tails/100031322
2020-08-18 11:21:34 989
原创 TransE算法(Translating Embedding)
https://blog.csdn.net/u012102306/article/details/80047103
2020-08-15 21:19:38 223
Pro Go The Complete Guide -go语言学习最新书籍
2023-06-19
Advanced_Programming_in_the_UNIX_Environment,_3rd
2018-11-30
Deep_Learning_Quick_Reference
2018-09-01
Convex Optimization Algorithms
2018-09-01
Guide.to.Medical.Image.Analysis.Methods.and.Algorithms
2018-09-01
Python Machine Learning Machine Learning and Deep Learning
2018-03-27
Data Structures and Algorithms Using Python and C++
2018-03-27
R_for_Data_Science
2018-03-27
Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow
2018-03-17
Approximate.Dynamic.Programming.2011
2018-01-17
Swarm Intelligence Principles Advances and Applications
2018-01-13
Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf
2017-12-18
Fundamentals of Deep Learning完整非扫描版本2017
2017-12-16
Text Mining in Practice with R 2017.12
2017-12-13
Text_Mining-From_Ontology_Learning_to_Automated_Text_Processing_Applications
2017-12-13
Tensorflow 机器学习参考手册2007
2017-11-22
Spark大数据处理技术 带标签 完整版
2017-11-12
模式分类11
2016-11-07
集体编程智慧
2016-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人