深度学习理论
judgechen1997
这个作者很懒,什么都没留下…
展开
-
NLP入门
之前考虑要不要往NLP靠,浏览了些这方面的博客,也算是入门吧 首先是整个NLP的发展历程,参考: https://blog.csdn.net/Zhangbei_/article/details/85036948 关于seq2seq: https://blog.csdn.net/Jerr__y/article/details/53749693 关于transformer: https://www.jianshu.com/p/bb7935f5c717 https://zhuanlan.zhihu.com/p/3原创 2020-06-12 00:24:50 · 177 阅读 · 0 评论 -
Non-local总结
Non-local能够引入全局的信息,就能很好地解决local操作无法看清全局的情况,为后面的层带去更丰富的信息。(可以和FC以及普通local conv对比下,FC也是non-local连接,而且是global的) 这两篇blog感觉写的很好: https://zhuanlan.zhihu.com/p/33345791 https://blog.csdn.net/u014380165/article/details/80012001 自己总结下, Non-local module的核心就是如下两个公式:原创 2020-05-10 23:47:32 · 1021 阅读 · 1 评论 -
Explaining Knowledge Distillation by Quantifying the Knowledge
Explaining Knowledge Distillation by Quantifying the Knowledge 本文核心idea是利用熵衡量feature中蕴含的knowledge,并将其量化。 首先有个概念叫 visual concept, which is defined as an image region, whose information is significantly...原创 2020-04-24 00:15:56 · 431 阅读 · 0 评论 -
AlphaGo-Nature: Mastering the game of Go with deep neural networks and tree search
AlphaGo论文浅析Introduction 大作业让分析一下这篇论文,正好整理到博客上。 Introduction 首先介绍了一下之前破解各种游戏所采用的搜索空间剪枝的原则。以及Monte Carlo tree search (MCTS),在围棋上达到了较强的业余选手水平,但是离人类顶尖职业选手还是有不少差距。 本文将围棋19x19的棋盘位置作为一个19x19 image送入CNN。使用神经网...原创 2019-12-06 17:59:56 · 330 阅读 · 0 评论 -
MobileNetV2
赶时间搭baseline搞CVPR,没有时间认真看论文,看了看博客大概知道MobileNetV2的结构了,以后要好好看看! 这位老哥讲的不错: 主要两个改进 一是block里的第二个conv1×1后面并没有接relu,而是用的linear,作者称之为Line Bottlenecks 因为第一个dw conv 已经用过一次ReLu了,这里1x1conv把通道映射提升又使用的话,会破坏feature ...原创 2019-09-28 20:58:50 · 105 阅读 · 0 评论 -
MobileNet
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision ApplicationsDepthwise Conv 大名鼎鼎的MobileNet,实习的时候发现工业界用的很多!今天要一探究竟了~ Depthwise Conv 这位老哥的图画的通俗易懂 本文首先对传统的卷积进行了改进(我一开始学的时候也觉得conv f...原创 2019-09-27 16:51:55 · 97 阅读 · 0 评论 -
DenseNet论文浅析与代码实现
代码地址:Pytorch版本DenseNet DenseNet可以说是结合了ResNet和Inception结构的优点,建立了稠密的连接,最大化信息流动,进一步优化了梯度 densenet论文中,认为resnet帮助解决了梯度消失问题,梯度消失有一部分原因确实是网络过深:传播经过的层数越多,梯度越容易消失,而shortcut的结构使得梯度传播跳过了一层。但是相加后,信息无法继续传递了 dense...原创 2019-09-18 17:42:57 · 348 阅读 · 0 评论 -
BN浅析及用法
BN和conv pooling一样是一个含有参数的层,其解决的问题是样本间在隐含层的特征数据分布不均,提升训练效率。 基本算法如下,首先对每一层的数据,都会计算其均值和方差,再将特征数据分布归一化到均值为1,标准差为0。仅仅是这样操作后会有一个硬伤:原本一些数据分布可能都是大于0的,现在你归一化到均值为1,一般情况下,神经元在ReLu都不会被激活! 因而BN层又构造了一个yi=γxi+βy_i=\...原创 2019-09-17 20:48:33 · 1158 阅读 · 0 评论 -
BP、梯度消失/爆炸与ResNet
深度学习最底层的理论,竟有些生疏了,回顾一下梯度消失与爆炸的根本原因: https://www.jianshu.com/p/243ab5aff906 主要是传统的一些激活函数很容易出现梯度消失/爆炸 loss对参数的偏导,与sigmoid的导数以及参数w有关: sigmoid的导数是限制在[0, 1/4],当它接近0时,有可能指数效应引起梯度消失 w参数初始化一般较小,但如果大于1了,很有可能引...原创 2019-09-17 11:31:58 · 2071 阅读 · 0 评论 -
调参技巧总结
调参技巧总结1.归一化2.激活函数3.初始化4.是否使用预训练5.froze layes6.数据量和lr的关系7.学习策略8.batchsize的影响9.衰减因子 1.归一化 当batch很小,又不做归一化时,data容易出现忽正忽负的情况,w也会出现全正或者全负,往一边偏很麻烦 2.激活函数 大数据集时,ReLu的缺点暴露出来了,很多神经元变为0,梯度消失(水爷说有实验,换了ReLu,提升几个点...原创 2019-09-14 17:27:58 · 618 阅读 · 0 评论