机器学习
文章平均质量分 74
夏天的米米阳光
不忘初心,学会成长
展开
-
随机梯度下降及其变种的综述
随机梯度算法作为重要的一阶优化算法,每次采用小部分样本进行梯度的更新,迭代速度比较快。在随机梯度算法的基础上,为了选择合适的学习率,出现动量法与自适应学习率算法。为了更好的学习稀疏特征,随机梯度下降算法融合RDA以及FOBOS形成FTRL算法。由于随机梯度下降算法每次采用部分样本进行梯度计算,引入较大的方差,因此提出减少方差的随机梯度算法svrg以及sag算法。本文将从随机梯度下降算法开始,并对其原创 2018-01-17 18:08:30 · 2727 阅读 · 0 评论 -
语音识别基础
传统的语音识别主要基于HMM(隐马尔可夫模型)以及GMM(高斯混合模型)。 HMM主要由三个要素构成,初始概率、转移概率与观测概率。比如玩游戏抛硬币,有两个硬币放在盒子中,硬币1与硬币2,每次选取一个硬币,抛掷并观测其正反面。在这个游戏中,由于最终玩家只能知道硬币的正反,并不知道这个硬币是硬币1与硬币2,因此这个游戏总共有两个隐藏状态,硬币1与硬币2。初始概率即选取硬币1...原创 2019-01-06 22:23:54 · 529 阅读 · 0 评论 -
多任务学习权重的动态调整
MTL多任务学习主要为了多任务之间能够共享信息。一般做法是将各任务的目标进行加权求和进行统一优化。如果各任务之间能够做到互不竞争,每个任务将得以充分优化。然而,多任务学习容易造成某些任务占主导地位,其他任务无法优化充分。本文主要是关于两篇动态调整多任务权重的论文的记录。1、Multi-Task Learning Using Uncertainty to Weigh Losses ...原创 2018-10-28 16:23:18 · 13193 阅读 · 5 评论 -
关于深度网络中的Normalization:BN/RBN/WN/LN的记录
深度前馈网络中前层输入的变化往往会引起后面层的变化,后面的层需要不断地调整自己的参数去适应前层的输入变化,这被称为internal covariance shift。这不仅会使网络训练变得缓慢,同时会让一些非线性激活函数如sigmoid更容易进入饱和区。 传统的方法通过采用白化对样本进行预处理,让样本的特征之间独立同分布,来解决这个问题。如何对深度网络进行归一化?...原创 2018-10-14 17:49:51 · 1261 阅读 · 0 评论 -
关于IRGAN的记录
本文是对IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models论文阅读的笔记,以便日后查看。 该篇论文基于生成对抗网络的框架,对其中的生成模型进行改进,从有标签或无标签样本中选择最难区分的样本,给判别模型进行判定,达到动态调整输入的数据,...原创 2018-10-02 12:31:39 · 918 阅读 · 0 评论 -
关于SeqGan的记录
最近阅读了两篇关于seq gan的论文,以下为两篇论文的记录。1、SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient 将gan应用于序列生成中会遇到一些问题:1、generator的作用是为了让输出连续,discriminator指导generator更新,而序列生成是离散的,discrimina...原创 2018-09-02 18:21:37 · 5568 阅读 · 6 评论 -
生成对抗网络记录(二)
最近看了李宏毅老师关于gan的课程,并阅读了一些相关的论文,做一些笔记以便日后回顾。 文字转化为图像,如果仅仅通过传统的有监督学习,将会导致生成的图像很模糊。比如,图像为多个火车的不同侧面图与正面图,有监督学习学到的图片最终将是这些图片的平均。因此需要使用gan去训练。如果只是采用传统的gan的话,输入文字与分布z,generator生成一幅图像,将会导致训练完后ge...原创 2018-09-02 18:08:11 · 398 阅读 · 0 评论 -
生成对抗网络记录(一)
最近看了李宏毅老师关于gan的课程,并阅读了一些相关的论文,做一些笔记以便日后回顾。 Gan网络主要是给定一个数据Pdata的分布,让机器去学习一个分布PG,让PG与Pdata分布尽可能接近。学习PG的过程,可以通过最大似然去实现。通过一系列的证明,可以看到最大似然与最小kl散度相等。 传统的PG使用一个高斯分布去拟合图像的分布,因为图...原创 2018-09-02 17:56:52 · 2775 阅读 · 0 评论 -
机器翻译模型简介(三)
本系列将记录一些最近的机器翻译模型,作为笔记,以备日后查看。3、Attention Is All You Need 本文提出一个新的网络结构transfomer,不采用卷积与循环神经网络,仅仅依赖于注意力机制。对于循环神经网络由于其序列输入特性,导致难以并行。而卷积网络可以捕获任意位置的信息,导致随着距离的增大,也越难学习长距离的依赖关系。本文提出一种自注意机制的端到端网络。结构...原创 2018-08-26 18:10:22 · 1208 阅读 · 0 评论 -
机器翻译模型简介(二)
本系列将记录一些最近的机器翻译模型,作为笔记,以备日后查看。2、Convolutional Sequence to Sequence Learning 本文提出用卷积网络进行序列到序列模型的建立,针对循环神经网络中现有的时序优势,将卷积网络进行改进,采用pos embedding,多跳attention以及多层卷积等,以将卷积适用于这种时序的场景。整体框架如下图: ...原创 2018-08-26 18:03:52 · 1764 阅读 · 0 评论 -
机器翻译模型简介(一)
本系列将记录一些最近的机器翻译模型,作为笔记,以备日后查看。1、Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation 这篇论文试图解决神经网络机器翻译的一些问题:1、较慢的训练与预测速度,2、解决稀少词的预测3、不能够完全覆盖翻译源句。...原创 2018-08-26 17:57:50 · 7433 阅读 · 0 评论 -
关于对抗训练的记录
最近看了一些关于对抗训练的论文,作一些笔记以备以后可以查看回顾。现实中的时间序列或图像,往往都是连续的。而我们输入到模型中的数据,往往是不连续的。连续的输入往往能产生较好的模型泛化能力。因此,有人提出在输入中加入微小扰动试图使模型更好的对抗噪声扰动。[1]提出fast gradient sign method来生成对抗样本,将对抗样本的损失加入到原有的损失函数,进行训练,可以使模型更好的对抗扰...原创 2018-08-12 22:28:34 · 1369 阅读 · 0 评论 -
关于自然语言与图像的一些想法
最近看了一些关于机器翻译领域的论文,做了一些这块的实验,算是初步入门自然语言处理了。尽管自己曾经做图像这块也很少,但是自己仅有的一些深度学习经验也就是图像这块了。刚开始做机器翻译的时候,总是将它与图像处理类比,渐渐发现图像和自然语言处理的差别还是挺大的,将图像理论用于自然语言处理中,有时会想不通。先总结一些区别,之后慢慢补充。如有错误,望提出来一起探讨。1、图像的原始特征即图像的...原创 2018-07-15 20:35:26 · 3064 阅读 · 1 评论 -
Tensorflow分布式MirroredStrategy简介
最近由于一直在使用tensorflow多卡训练,遇到一些问题,于是查看了一些关于estimator关于多卡分布式策略的代码,主要了解了关于MirroredStrategy的相关内容。tf.estimator.Estimator初始化时可以在config中train_distribute设置相应的分布式策略,今天主要记录train_distributtf.contrib.distrib...原创 2018-07-15 19:50:13 · 9414 阅读 · 1 评论 -
子词切分算法
最近使用transformer训练机器翻译模型,期间也看了一些关于数据预处理分词的方法,了解了transformer[1]的subtokenizer以及bpe算法。 其中subtokenizer分为形成词汇表与处理训练文本两个部分。 形成词汇表部分,首先通过空格为间隔切分原始文本并统计词语与词频数,其次根据上个步骤的统计形成初始的每个单词或单字词汇表。通过迭代一定的次数不...原创 2018-07-01 22:46:20 · 3444 阅读 · 2 评论 -
随机梯度下降中的优化算法
1、动量法加入历史梯度累积,作为下降方向。2、Nesterov 加速梯度法在之前的累积梯度上前进一步,根据当前情况进行修正。相较于动量法,增加了当前情况的修正。动量法容易在梯度的来回震荡中抵消一部分动量作用,Nesterov加速梯度法有效改进了不足之处。3、Adagrad算法以上两种动量法都是对不同的参数进行同样的调整,对于稀疏矩阵,往往一些参数更新频繁,另一些原创 2018-01-08 16:27:10 · 1681 阅读 · 0 评论 -
Fine tune using tf.estimator with distribution strategy
最近训练模型时遇到一些问题,记载下来以备以后可以查看。在使用tensorflow的接口estimator遇到一些问题,官方的api也不是很具体,因此通过搜索与查看源码,一步步熟悉其操作与原理,并解决了问题。tf.estimator是专为分布式设计的,其中包含很多分布式策略。包含如下参数:1、model_fn,该函数的输入包含feature、label、config、mode一些参数设置等,对于...原创 2018-06-23 21:38:28 · 1596 阅读 · 0 评论 -
英语二语者韵律的评估
最近写了一篇比较枯燥的简介,要有耐心看完哦。评估二语者的英语一般从两个角度进行评估:1、音段内容2、超音段内容。其中音段内容主要包括音素、词语、句子的发音,超音段内容一般又称为韵律相关的内容。这篇博客将会从韵律角度讲述现有的二语者韵律反馈和评估方式。韵律特征一般体现在音高、音强、发音时长等特征。这些特征可以由音频的基本参数表示。如音高,可由基频即F0表示,基频即当发声体由于振动而发出声音时...原创 2019-09-15 21:25:53 · 614 阅读 · 0 评论