深度学习
文章平均质量分 91
深度学习入门学习笔记
EntropyPlus
这个作者很懒,什么都没留下…
展开
-
神经网络——(GAN之二)
1. GAN的理论在图片生成过程中,我们的目标其实是存在一定的分布的,假设在整个图像空间中,蓝色部分的点可以生成人脸,其他区域的脸则不能生成人脸。那么,我们的目的是寻找蓝色区域的概率密度函数1.1 最大似然估计与GAN一般的思路是:我们通过sample数据集,去估计给定数据(输入数据)的分布,记为Pdata(x)P_{data}(x)Pdata(x),因此,使用网络的目的是,找到一堆参数...原创 2020-04-27 08:54:39 · 434 阅读 · 0 评论 -
神经网络基础——(GAN之一)
1. Basic idea of GAN1.1 基本思路在实际的code中,往往将Generator和Discriminator合起来当做一个巨大的network,input是vector,output就是一个value,固定D的参数,update G网络。1.2 具体算法我们的目标是希望V~\widetilde{V}V越大越好,D(xi)D(x^i)D(xi)是D 网络对真实数据...原创 2020-04-26 12:20:40 · 612 阅读 · 0 评论 -
Attention专场——(2)Self-Attention 代码解析
原文地址1. 参考资料Attention Is All You Need - NIPS 2017: 5998-6008 - 论文链接transformer原理参考文章transformer中文讲解视频(简单)transformer中文讲解视频(进阶)哈佛大学的ptorch版transformer代码实现自注意力与位置编码2. 模型架构编码器将输入序列(x1,x2,...,xn...原创 2020-01-22 16:45:29 · 10646 阅读 · 4 评论 -
Attention专场 ——(1) 简介
文章目录1. 基于注意力机制的编码器解码器1.1 整体流程1.1.1 基本概念计算 value先计算Query和key1.2 具体说明1.2.1 计算背景变量1.2.2 矢量化计算1.2.3 更新隐藏状态1.3 抽象成Query、Key、Value3. 通用的一些技巧3.1 regularization attention3.2 Mismatch test data1. 基于注意力机制的编码器解...原创 2020-01-15 21:58:11 · 473 阅读 · 0 评论 -
label smoothing
1. dirac函数狄拉克(dirac)函数是一个广义函数,在物理学中常用其表示质点、点电荷等理想模型的密度分布,该函数在除了零以外的点取值都等于零,而其在整个定义域上的积分等于1。————————————————原文链接:https://baike.baidu.com/item/%E7%8B%84%E6%8B%89%E5%85%8B%CE%B4%E5%87%BD%E6%95%B0/576...原创 2020-01-19 11:00:53 · 522 阅读 · 0 评论 -
深度学习—— Spatial Transformer Layer
先说结论:在CNN中,没有放缩和旋转的功能。1. 什么是Spatial Transformer Layer因为有pooling层的原因,所以有一点translation的功能。在下图中,通常情况下左右两个对于CNN来说是不一样的。那么,Spatial Transformer Layer的功能是,想要学习一个层,能够对左图中的图片进行旋转和缩放。2. How to work?学习过程中...原创 2019-10-24 14:27:00 · 3055 阅读 · 0 评论 -
Ubuntu 部署MXnet——GPU版
1. 安装准备1.1 查看Ubuntu版本查看Ubuntu版本:cat /etc/issue查看操作系统信息:uname -a更新源:sudo apt-get update装编译器和git:sudo apt-get install build-essential git1.2 下载cudaCUDA下载地址下载CUDA:wget http://developer.downl...原创 2019-10-07 22:01:44 · 227 阅读 · 0 评论 -
pytorch 中LSTM的输出值
文章目录1. 官方手册2. output, h_n, c_n 之间的关系3. 代码1. 官方手册2. output, h_n, c_n 之间的关系首先,Pytorch中的LSTM有三个输出 output, hn, cn。可以把hn理解为当前时刻,LSTM层的输出结果,而cn是记忆单元中的值,output则是包括当前时刻以及之前时刻所有hn的输出值在只有单时间步的时候,out...原创 2019-10-20 17:11:28 · 9025 阅读 · 3 评论 -
神经网络基础 —— Seq2Seq的应用
文章目录1. 普通的Seq2Seq1.1 产生句子1.2 产生图片2. Conditional Sequence Generation2.1 图片描述2.2 文本翻译2.3 问答3. Dynamic Conditional Generation1. 普通的Seq2Seq1.1 产生句子其实在上一节内容LSTM与GRU写歌词的应用就是一个普通的Seq2Seq应用,t−1t-1t−1时刻的输出作...原创 2019-10-12 15:55:18 · 712 阅读 · 0 评论 -
神经网络基础——为什么要深层的网络
Fat+Short v.s. Tall+Thin有人做了这样一个对比:在相同参数量的情况下,神经网络层数对最后模型结果的影响。最后得出的结论为是:神经网络 Tall + Thin 的模型效果要好于Fat + Short 的效果。为什么会出现这样的情况呢?其实神经网络在设计过程中,其实是一个模块化的过程。设想这样一个场景:现在需要做图像分类,标签为4类:长头发男生,短头发男生,长头发女生,...原创 2019-10-11 12:32:34 · 843 阅读 · 3 评论 -
ReLU 和 MaxOut 网络
文章目录1 sigmoid激活函数的不足之处2. Relu3. Relu的变种3.1 LeakReLU3.2 PReLU3.3 RReLU4. MaxOut 网络4.1 与ReLU的关系4.2 可能训练处激活函数的样子4.3 MaxOut 的训练1 sigmoid激活函数的不足之处在网络结构非常深的情况下,由于梯度消失问题的存在,可能会导致靠近输入附近的隐藏层的权重变化较慢,导致结果训练效果较...原创 2019-10-06 15:49:51 · 1070 阅读 · 0 评论 -
神经网络基础——激活函数
原文链接文章目录1. step2. Identity3. ReLU4. sigmoid5. Tanh6. Leaky ReLU7. PReLU8. RReLU9. ELU10. SELU11. SReLU12. Hard Sigmoid13. Hard Tanh14. LeCun Tanh15. ArcTan16. Softsign17. SoftPlus18. Signum19. Bent I...转载 2019-10-05 10:26:50 · 461 阅读 · 0 评论 -
神经网络基础(六)——LSTM与GRU
文章目录1. 引言2. LSTM的基本概念1. 引言在神经网络基础——循环神经网络中提到,循环神经网络很难处理长距离的依赖。于是提出了一种改进的循环神经网络,长短时记忆网络(Long Short Term Memory Network, LSTM),它成功的解决了原始循环神经网络的缺陷,成为当前最流行的RNN,在语音识别、图片描述、自然语言处理等许多领域中成功应用。2. LSTM的基本概念...原创 2019-10-12 00:05:10 · 1101 阅读 · 0 评论 -
神经网络基础(五)——循环神经网络
文章目录1. 语言模型2. 循环神经网络2.1 基本概念2.2 表示方式3. 循环神经网络的训练3.1 前向计算3.2 反向计算3.2.1 目的3.2.2 对时间方向误差传递的计算对于上一时刻误差项的计算对于前任意时刻k误差传递的计算3.2.3 对输入方向误差传递的计算3.3 权重梯度的计算1. 语言模型和电脑玩一个游戏,我们写出一个句子前面的一些词,然后,让电脑帮我们写下接下来的一个词。比如...转载 2019-10-09 21:19:23 · 540 阅读 · 0 评论 -
神经网络基础(四)——卷积神经网络
文章目录1. 卷积神经网络是啥1. 卷积神经网络是啥一个好的卷积神经网络,大概类似于下面这种结构卷积神经网络由:卷积层(Convolution Layer),池化层层(Pooling Layer),**全连接层(Fully Connected Layer)**三种结构自由搭配组成。但是通常的套路均为:一个Input Layer+ N个卷积层Convolution Layer叠加,然后(...转载 2019-10-06 12:28:03 · 466 阅读 · 0 评论 -
神经网络基础(三)—— 全连接神经网络与反向传播算法
文章目录1. 前言2. 模型基本情况说明2.1 网络结构2.2 激活函数1. 前言网上关于神经网络的浅显介绍已经很多了,本文不再赘述,重点是神经网络的前后向传播过程的理论推导。2. 模型基本情况说明2.1 网络结构2.2 激活函数函数图像表达式sigmoid(x)=11+e−xsigmoid(x)=\frac{1}{1+e^{-x}}sigmoid(x)=1+e−x1...转载 2019-10-03 15:32:01 · 647 阅读 · 0 评论 -
神经网络基础(二)——感知机回归
文章目录1. 激活函数2. 损失函数3. 求参数的方法3.1 极大似然估计3.2 梯度下降算法4. 与分类器的比较5. 参考文献1. 激活函数感知机一文中提到了感知机模型在分类问题上的应用,如果,我们需要将其使用于回归问题呢,应该怎样处理呢?其实只要修改算法的最后一步,sign(x)={+1,x≥0−1,x<0(1.1)sign(x)=\left\{\begin{matrix}+...原创 2019-10-03 09:43:11 · 908 阅读 · 1 评论 -
神经网络基础(一)——感知机分类
1. 基本概念1.1 数据要求数据线性可分,其中,输入:特征向量;输出:类别。是一種判別模型。1.2 基本形式f(x)=sign(w⋅x+b)(1.1)f(x)=sign(\boldsymbol{w}·\boldsymbol{x}+b)\tag{1.1}f(x)=sign(w⋅x+b)(1.1)其中:sign(x)={+1,x≥0−1,x<0(1.2)sign(x)=\l...原创 2019-10-02 21:50:36 · 1310 阅读 · 0 评论