深度学习
远洋之帆
机器学习 人工智能 数学 数据可视化 机器人
展开
-
细讲xlnet
论文地址:https://arxiv.org/pdf/1906.08237.pdf预训练模型及代码地址:https://github.com/zihangdai/xlnet论文原理:(张俊林老师--讲的比较透彻)XLNet:运行机制及和Bert的异同比较https://zhuanlan.zhihu.com/p/70257427摘要作者表示,BERT 这样基于去噪自编码器的预...原创 2020-02-06 14:04:37 · 425 阅读 · 0 评论 -
最小熵原理(四):“物以类聚”之从图书馆到词向量
从第一篇看下来到这里,我们知道所谓“最小熵原理”就是致力于降低学习成本,试图用最小的成本完成同样的事情。所以整个系列就是一个“偷懒攻略”。那偷懒的秘诀是什么呢?答案是“套路”,所以本系列又称为“套路宝典”。本篇我们介绍图书馆里边的套路。先抛出一个问题:词向量出现在什么时候?是2013年Mikolov的Word2Vec?还是是2003年Bengio大神的神经语言模型?都不是,其实词向量可...转载 2019-12-10 16:43:50 · 432 阅读 · 0 评论 -
单步训练GAN技巧——把生成器和判别器loss合并成一个
我们知道普通的模型都是搭好架构,然后定义好loss,直接扔给优化器训练就行了。但是GAN不一样,一般来说它涉及有两个不同的loss,这两个loss需要交替优化。现在主流的方案是判别器和生成器都按照1:1的次数交替训练(各训练一次,必要时可以给两者设置不同的学习率,即TTUR),交替优化就意味我们需要传入两次数据(从内存传到显存)、执行两次前向传播和反向传播。如果我们能把这两步合并起来,作为一步...转载 2019-12-09 11:31:08 · 7475 阅读 · 0 评论 -
O-GAN引入正交分解实现GAN自编码
本文来给大家分享一下笔者最近的一个工作:通过简单地修改原来的GAN模型,就可以让判别器变成一个编码器,从而让GAN同时具备生成能力和编码能力,并且几乎不会增加训练成本。这个新模型被称为O-GAN(正交GAN,即Orthogonal Generative Adversarial Network),因为它是基于对判别器的正交分解操作来完成的,是对判别器自由度的最充分利用。Arxiv链接:h...转载 2019-12-09 11:22:44 · 414 阅读 · 0 评论 -
GAN的三重理解境界
在对GAN的学习和思考过程中,我发现我不仅学习到了一种有效的生成模型,而且它全面地促进了我对各种模型各方面的理解,比如模型的优化和理解视角、正则项的意义、损失函数与概率分布的联系、概率推断等等。GAN不单单是一个“造假的玩具”,而是具有深刻意义的概率模型和推断方法。作为事后的总结,我觉得对GAN的理解可以粗糙地分为三个阶段:1、样本阶段:在这个阶段中,我们了解了GAN的“鉴别者-造假者”...转载 2019-12-06 16:22:56 · 608 阅读 · 0 评论 -
WGAN-div 重理论高度设计Lipschits约束
今天我们来谈一下Wasserstein散度,简称“W散度”。注意,这跟Wasserstein距离(Wasserstein distance,简称“W距离”,又叫Wasserstein度量、Wasserstein metric)是不同的两个东西。本文源于论文《Wasserstein Divergence for GANs》,论文中提出了称为WGAN-div的GAN训练方案。这是一篇我很是欣赏却默...转载 2019-12-05 17:48:11 · 1097 阅读 · 0 评论 -
F-GAN更高一层看GAN
今天介绍一篇比较经典的工作,作者命名为f-GAN,他在文章中给出了通过一般的ff散度来构造一般的GAN的方案。可以毫不夸张地说,这论文就是一个GAN模型的“生产车间”,它一般化的囊括了很多GAN变种,并且可以启发我们快速地构建新的GAN变种(当然有没有价值是另一回事,但理论上是这样)。局部变分#整篇文章对ff散度的处理事实上在机器学习中被称为“局部变分方法”,它是一种非常经典且有用的估算...转载 2019-12-05 16:09:19 · 909 阅读 · 0 评论 -
用变分推断统一理解生成模型(VAE、GAN、AAE、ALI)隐变量的艺术
前言:我小学开始就喜欢纯数学,后来也喜欢上物理,还学习过一段时间的理论物理,直到本科毕业时,我才慢慢进入机器学习领域。所以,哪怕在机器学习领域中,我的研究习惯还保留着数学和物理的风格:企图从最少的原理出发,理解、推导尽可能多的东西。这篇文章是我这个理念的结果之一,试图以变分推断作为出发点,来统一地理解深度学习中的各种模型,尤其是各种让人眼花缭乱的GAN。本文已经挂到arxiv上,需要读英文原稿的...转载 2019-12-04 15:07:32 · 1284 阅读 · 0 评论 -
变分自编码器——从全概率角度解读
用更一般的、概率化的语言来把VAE说清楚。事实上,这种思考也能回答通俗理解中无法解答的问题,比如重构损失用MSE好还是交叉熵好、重构损失和KL损失应该怎么平衡,等等。准备#在进入对VAE的描述之前,我觉得有必要把一些概念性的内容讲一下。数值计算vs采样计算#对于不是很熟悉概率统计的读者,容易混淆的两个概念应该是数值计算和采样计算,也有读者在《三味Capsule:矩阵Capsul...转载 2019-12-03 16:33:39 · 656 阅读 · 0 评论 -
“变形金刚”为何强大:从模型到代码全面解析Google Tensor2Tensor系统
张金超_WXG_PRC 在这篇文章中:第一章:概述 第二章:序列到序列任务与Transformer模型 2.1 序列到序列任务与Encoder-Decoder框架 2.2 神经网络模型与语言距离依赖现象 2.3 self-attention机制的形式化表达 2.4 “Attention is All You Need” 第三章:Tensor2Tensor系统...转载 2018-11-28 15:00:08 · 683 阅读 · 0 评论 -
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
目录 图像领域的预训练Word Embedding考古史从Word Embedding到ELMO从Word Embedding到GPTBert的诞生 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角...转载 2018-11-27 19:50:40 · 287 阅读 · 0 评论 -
深度学习中注意力机制
Attention机制的本质思想如果把Attention机制从上文讲述例子中的Encoder-Decoder框架中剥离,并进一步做抽象,可以更容易看懂Attention机制的本质思想。 图9 Attention机制的本质...转载 2018-11-27 19:26:51 · 671 阅读 · 0 评论