Alexzhuan-CSDN博客

原创 [论文笔记] [2015] [ICML] Batch Normalization

这篇论文的主要工作就是提出了如今深度学习常见的 Batch Normalization，来加速深层网络训练的收敛，以及在 Inception v1 的基础上做了一些训练方式和结构上的改进（Inception v2），其在 ImageNet 分类任务上是超越了当时最好的成绩：4.9% top-5 validation error。Motivation这篇论文拟解决的问题是深度学习中很关键的问题，深度神经网络模型的训练为什么困难、收敛慢？这个问题的解决在之前的工作中，有从尝试新的激活函数角度，如 ReLU

2020-09-15 00:43:04 3702 2

原创 [论文笔记] Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

这篇是 Kaiming 大神在 ICCV15 上的工作，其主要工作是提出了 Parametric Rectified Linear Unit（PReLU）和一种新的参数初始化方式（在PyTorch等框架中称为 Kaiming 初始化）。ApproachParametric Rectifiers在 PReLU 之前就存在着一些尝试去改进 ReLU 的工作。比如 LReLU [1] 就将 ReLU 左侧的常数 0 改为斜率非常小的线性区域，而它的 motivation 是试图去避免 zero gradie

2020-08-16 00:24:47 1637 1

原创 [论文笔记] [2010] Understanding the Difﬁculty of Training Deep Feedforward Neural Networks

这篇论文主要是从参数初始化和激活函数的角度，通过实验中观察网络在训练迭代时每层的 activations 和 gradients，来探究训练深层模型困难的原因，并提出了一种新的参数初始化方式来加快模型训练时的收敛。Effect of Activation Functions and Saturation During Trainingsigmoid 激活函数在之前已经被证明会减慢学习的速度，如果再采用随机初始化参数（这里的随机是服从均匀分布 U[−1n,1n]U\left[-\frac{1}{\sqrt

2020-08-03 22:29:42 659

原创 [论文笔记] The Difﬁculty of Training Deep Architectures and the Effect of Unsupervised Pre-Training

这是篇比较早的论文了，09年左右那会儿是 unsupervised pre-training 大热的时候，因为它让训练深层网络看到了希望，而这篇主要是探讨了关于训练深层网络困难的问题，并通过实验分析了 unsupervised pre-training 给训练深层网络带来的优势。Experimental Results这篇论文主要以实验分析为主，主要讨论了以下几个问题：Why is it more difficult to train deep architectures than shallow

2020-08-02 18:51:32 306

原创 [论文笔记] [2014] An Empirical Analysis of Dropout in Piecewise Linear Networks

这篇论文主要探讨了几个关于 dropout 性能的问题，通过几组实验做了验证。一是探究在inference阶段 dropout 逼近 ensemble 预测的能力。在几个小任务上，设计一个很简单的模型，主要是为了实现inference阶段，准确的 geometric mean 计算，与 dropout 的 weight scaling approximation 的效果进行比较。二是考虑 geometric mean 自身的重要性。因为通常的 bagging ensemble 的预测是通过模型的 ari

2020-07-26 23:05:10 219

原创 [论文笔记] [2013] [ICML] Maxout Networks

在11年 dropout 的提出，其效果引起了各路学者的注意，一些试图改进提升 dropout 的工作也随着而来。这篇的作者觉得 dropout 太随便了（在任何网络中都能使用），认为可以专门设计一个模型配合 dropout 使用，提升 dropout 作为 model averaging（就是做ensemble，类似于bagging这些）技术的能力，得到 best performance。Review of dropoutdropout training 类似于集成学习中的 bagging，都是许多

2020-07-24 15:58:15 248

原创 [论文笔记] [2008] [ICML] Extracting and Composing Robust Features with Denoising Autoencoders

在06年以前，想要去训练一个多层的神经网络是比较困难的，主要的问题是超过两层的模型，当时没有好的策略或方法使模型优化的很好，得不到预期的效果。在06年，Hinton提出的stacked autoencoders 改变了当时的情况，那时候的研究者就开始关注各种自编码模型以及相应的堆叠模型。这篇的作者提出的DAE（Denoising Autoencoders）就是当时蛮有影响力的工作。那个时候多层模型效果得到提升的一个关键的因素就是采用像自编码器这类无监督训练方式做逐层的预训练（layer-wise pre-

2020-07-18 01:19:40 2181

原创 [读书笔记] [PRML] 1.6 Information Theory

这一小节的知识点主要是信息论中的熵、相对熵（KL散度）、条件熵以及互信息。这几个信息论中的概念在机器学习中起到很大的作用，比如决策树上特征的选择，以及最近的一些工作利用互信息取得了不错的效果。在熵之前，有一个信息量的概念，什么是信息量？当你被告知“有效抗癌药物研发成功”，你一定非常惊讶，觉得信息量很大；当你被告知"今天下午将停电"，你就不那么惊讶了；而当你被告知“明天太阳会升起”，你估计就直接忽视这条消息了。你对这三条消息表现出的惊讶程度（degree of surprise）是不一样的。对于第一条消息，

2020-07-17 02:06:12 236

原创 [论文笔记] [2012] [NIPS] ImageNet Classification with Deep Convolutional Neural Networks

这篇就是AlexNet的原论文。那年AlexNet在ILSVRC-2012上以超过第二名10.9个百分点夺冠，拉开了卷积神经网络统治计算机视觉的序幕，加速了计算机视觉应用落地。它的创新点在于：采用ReLU加速大型神经网络训练；采用LRN（Local Response Normalization）提升网络的泛化能力；采用 Overlapping Pooling 提升指标；采用随机裁剪翻转及色彩扰动增加数据多样性；采用Dropout缓解过拟合。其中的一些方法和技巧在现在的工作中还是很常见的，比如

2020-07-09 00:05:52 628

原创 [论文笔记] [2015] Training Deeper Convolutional Networks with Deep Supervision

这篇论文的工作是将 Deep Supervision 的思路引入到训练 Deeper Convolutional Networks，即在训练深层网络过程中，在某些隐层后面接入 auxiliary supervision branch，提供了一个训练深层网络的trick。deep network 效果好是毋庸置疑的，但同时也是存在很多问题。随着网络层数的增加，训练的难度和过拟合的问题也随之而来。在 googLeNet中，就提出了将 auxiliary supervision classifiers 加入到中

2020-07-07 22:24:34 1511

原创 [论文笔记] [2014] Deeply-Supervised Nets

这篇论文是比较早的工作了，但论文中提到 Deep Supervision 的概念在后面的工作中常会被提到。这篇论文的亮点就在于对每一隐层都引入 companion objective。简单说来就是每一个隐层都会后接一个分类器，去检验（监督）每一个隐层抽取出的特征的效果，这也是为什么标题叫 deeply-supervised。如果先不看论文后面的部分，只看这么一个 idea，就会有一些疑问：每个隐层都接一个分类器，整个模型怎么训练？目标函数怎么定义？反向传播怎么做？对每个隐层的分类器做优化，不会影响模

2020-07-07 16:08:08 828

原创 [论文笔记] [2013] [NIPS] Distributed Representations of Words and Phrases and their Compositionality

这篇论文的作者 Mikolov 基于他前面的工作——skip-gram model学习 word embedding，提出了几个提高词向量性能和训练速度的技巧，以及如何学习短语的表示。这篇论文的主要贡献为：利用 subsampling 加速训练和提高词向量的质量；对 Noise Contrastive Estimation（NCE）做了一些简化，提出了 Negative sampling 来优化模型训练速度；尝试学习短语的表示。The Skip-gram ModelMikolov 之前的工作

2020-07-02 23:11:11 531

原创 [论文笔记] [2013] [ICLR] Efficient estimation of word representations in vector space

这篇论文便是word2vec的原论文，是入门NLP的必读论文。

2020-06-30 01:48:21 1047

原创 [论文笔记] [2005] Hierarchical Probabilistic Neural Network Language Model

这篇论文中提到的 Hierarchical Decomposition 就是后来在训练 word2vec 模型时一个常见的技巧 Hierarchical Softmax [1]。所谓的 Hierarchical Decomposition，就是将原先用 softmax 做多分类分解成多个sigmoid，使得模型在输出层的计算从 O(∣V∣)O(|V|)O(∣V∣) 降低到了 O(log⁡∣V∣)O(\log{|V|})O(log∣V∣)。在 NNLM [2] 那篇论文中，作者提了一些未来工作的方向，其中就

2020-06-29 15:59:34 652

原创 [论文笔记] [2003] A Neural Probabilistic Language Model

图灵奖获得者Bengio 03年的论文，虽然年代已经比较“久远”，但意义非凡。它的贡献在于提出了神经网络语言模型以及这个模型同时能学习词向量（word embedding），这为后来深度学习在解决NLP问题奠定了坚实的基础，并且这种训练词向量的方式为后来的研究提供了更广阔的思路。在这之前的统计语言模型，比如n-gram，它们的缺陷在于：缺乏长期依赖，只考虑了前 n-1 个词；随着 n 的增大，参数空间呈指数增长；数据稀疏，难免会出现OOV问题；单纯基于词频统计，泛化能力差。而关于词的向量空间表示在03年

2020-06-25 22:54:49 632

原创 [会议笔记] [2020] 北京智源大会图神经网络专题论坛

今天下午听了北京智源大会图神经网络专题论坛，几个老师的分享都很精彩，收货颇丰。唐建老师（来自Mila，Bengio创立的）分享的题目是《基于感知和认知系统的逻辑关系推理》，主要讲的是他们团队在ICML2019上的一篇工作《GMNN: Graph Markov Neural Networks》。在推理里上两个system，system one 即基于感知的，它的特点是快速，直观（比如CNN模型预测一张图片是猫是狗）；而system two 即基于认知的，它需要逻辑的推理，是复杂的、慢的（比如knowleg

2020-06-23 20:25:32 1057 3

原创 [论文笔记] [2017] [ICLR] Semi-Supervised Classification with Graph Convolutional Networks

这是Kipf博士期间发表在ICLR’17的一篇论文，在GCN的相关工作中很具影响力，目前被引了3k多次。它的主要贡献在于对 [1] 中的Chebyshev多项式做了一阶估计，提出了一个简单但有效的 propagation rule（GCN层），并且在 graph-based semi-supervised learning 任务上有不错的表现。Graph-based semi-supervised learning在图上节点分类问题上（只有一部分节点有label），经典的方法主要有两类：加入图拉普拉斯正

2020-06-21 16:05:25 844

原创 [论文笔记] [2016] Molecular graph convolutions: moving beyond fingerprints

这篇论文提出了一种GNN变体应用于 virtual screening 中分子表征学习阶段，取代了传统用分子指纹做分子表征。这也是目前分子表征主流的一种方式。本文中图卷积模块 Weave module，如下图，其中了考虑边的特征，并且提出了一种新的图表示方法，即一种新的聚合节点信息得到全局表达的方式。MethodsDesired invariants of a model设计一个DL结构作用于分子图上，作者认为需要满足三个property。第一个是，The output of the mod

2020-06-19 19:17:41 1413 1

原创 [论文笔记] [2015] Massively Multitask Networks for Drug Discovery

这篇论文同样作为将 Multi-task learning 应用于药物发现，较之 [1]，其整理出一个新的数据集，做了大量的对比实验，更侧重于去验证 multi-task learning 的有效性，以及探究利用 MTL 后效果得到提升的潜在因素。作者在实验后，得到了几个比较有意义的结论：随着 task 和 data 的增加，模型的性能增益会衰减，但性能依旧会提高（至少在他的数据集中是这样）；task 和 data 是两个影响模型的比较重要的因素；MTL模型中抽取出的特征，其具有 transfer

2020-06-15 11:24:27 410

Alexzhuan