深度学习
深度学习
車輪の唄
atarik@163.com
展开
-
Word2Vec原理
原始模型:原始模型: 就是根据输入(x,y),根据词x和词y共现的最大概率迭代模型参考:https://www.cnblogs.com/Micang/p/10235783.htmlword2vec的详细实现,简而言之,就是一个三层的神经网络。要理解word2vec的实现,需要的预备知识是神经网络和Logistic Regression。上图是Word2vec的简要流程图。...原创 2019-06-05 15:14:55 · 958 阅读 · 0 评论 -
从Seq2Seq到Attention
Seq2Seq模型是RNN最重要的一个变种:N vs M(输入与输出序列长度不同)。这种结构又叫Encoder-Decoder模型。原始的N vs N RNN要求序列等长,然而我们遇到的大部分问题序列都是不等长的,如机器翻译中,源语言和目标语言的句子往往并没有相同的长度。为此,Encoder-Decoder结构先将输入数据编码成一个上下文向量c:得到c有多种方式,最简单的方法就...原创 2019-07-22 14:42:06 · 304 阅读 · 3 评论 -
标量对矩阵求导
转自知乎:https://zhuanlan.zhihu.com/p/24709748原创 2019-07-22 09:03:22 · 263 阅读 · 0 评论 -
RNN梯度消失问题
关于梯度消失问题:1.网络层次越深, 越容易引起梯度消失, 无论是纵向网络(bp), 还是横向网络(rnn), 梯度消失是由激活函数的导数位于[0,1]区间引起的2.bp网络梯度消失会导致最前端的W学习不到, 而rnn梯度消失会引起记忆问题,只能学习到短期网络, 具体见https://www.jianshu.com/p/2512302f14c73.rnn梯度消失是因为误差间的相乘关...原创 2019-08-07 11:17:49 · 10007 阅读 · 2 评论 -
矩阵对矩阵求导
zz原创 2019-07-29 16:32:34 · 1348 阅读 · 0 评论 -
cnn全连接层
1. 定义全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中,全连接层可由卷积操作实现:对前层是全连接的全连接层可以转化为卷积核为1x1的卷积;而前层是卷积层的全连接层可以转化为卷积核为hxw...原创 2019-07-17 14:09:50 · 10027 阅读 · 0 评论 -
词向量维度和隐层神经元数目的关系
问题一:在NLP任务中,词向量维度(embedding size)是否一定要等于LSTM隐藏层节点数(hidden size)?词向量(Word Embedding)可以说是自然语言处理任务的基石,运用深度学习的自然语言处理任务更是离不开词向量的构造工作。在文本分类,问答系统,机器翻译等任务中,LSTM的展开步数(num_step)为输入语句的长度,而每一个LSTM单元的输入则是语句中对应单词...原创 2019-07-24 10:04:42 · 2417 阅读 · 1 评论 -
cnn之--一维,二维,三维卷积
1. 二维卷积 图中的输入的数据维度为14×14,过滤器大小为5×5,二者做卷积,输出的数据维度为10×10(14−5+1=10)。 没有padding的情况下,经过卷积操作,输出的数据维度会减少。以二维卷积为例,输入大小n×n,过滤器大小f×f,卷积后输出的大小为(n−f+1)×(n−f+1)。为了避免这种情况发生,可以采取padding操作,padding的长度为pp,由...原创 2019-07-18 14:03:24 · 939 阅读 · 0 评论 -
LSTM
参考:https://blog.csdn.net/m0_37917271/article/details/82350571以下图示的每个黄色块都可以视为一层神经元(非一个神经元,因为一个神经元w的shape是[1, 输入维度]), 整个绿色区域也可视为一层神经元①忘记门决定了我们应该忘记哪些信息②记忆门哪些该记住③更新门把老的cell state更新为新的cell...原创 2019-06-26 09:39:24 · 411 阅读 · 0 评论 -
循环神经网络
转自:https://www.cnblogs.com/Determined22/p/6562555.html关于梯度消失问题:1.网络层次越深, 越容易引起梯度消失, 无论是纵向网络(bp), 还是横向网络(rnn), 梯度消失是由激活函数的导数位于[0,1]区间引起的2.bp网络梯度消失会导致最前端的W学习不到, 而rnn梯度消失会引起记忆问题,只能学习到短期网络,...原创 2019-06-17 18:51:00 · 350 阅读 · 0 评论 -
理解softmax函数
softmax函数,又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来。下图展示了softmax的计算方法:我们知道指数函数的值域取值范围是零到正无穷。与概率取值相似的地方是它们都是非负实数。那么我们可以利用指数函数将多分类结果映射到零到正无穷。然后进行归一化处理,便得到了近似的概率。总结一下softmax如何将多分类输出转...原创 2019-06-11 16:54:57 · 464 阅读 · 0 评论 -
层次化softmax与负采样对比
Hierarchical Softmax是一种对输出层进行优化的策略,输出层从原始模型的利用softmax计算概率值改为了利用Huffman树计算概率值。一开始我们可以用以词表中的全部词作为叶子节点,词频作为节点的权,构建Huffman树,作为输出。从根节点出发,到达指定叶子节点的路径是的。Hierarchical Softmax正是利用这条路径来计算指定词的概率,而非用softmax来计算。...原创 2019-06-11 16:11:47 · 6664 阅读 · 3 评论 -
cbow与skip-gram对比
在cbow方法中,是用周围词预测中心词,从而利用中心词的预测结果情况,使用GradientDesent方法,不断的去调整周围词的向量。当训练完成之后,每个词都会作为中心词,把周围词的词向量进行了调整,这样也就获得了整个文本里面所有词的词向量。要注意的是, cbow的对周围词的调整是统一的:求出的gradient的值会同样的作用到每个周围词的词向量当中去。可以看到,cbow预测行为的次数跟整...原创 2019-06-11 14:18:14 · 1158 阅读 · 0 评论 -
交叉熵损失函数
的每一维 表示的是网络给出的样本x属于第i类的概率。给定样本(x,y),其中是one-hot向量.对于分类问题,也就是,并且使用交叉熵损失函数时,输出层的误差项 到底是个什么形式方法一:根据法则 可得 所以, 根据恒等式 可得 所以. 其称...原创 2019-06-20 10:19:14 · 216 阅读 · 0 评论 -
激活函数的作用
激活函数是用来加入非线性因素的,解决线性模型所不能解决的问题首先我们有这个需求,就是二分类问题,如我要将下面的三角形和圆形点进行正确的分类,如下图:利用我们单层的感知机, 用它可以划出一条线, 把平面分割开:上图直线是由得到,那么该感知器实现预测的功能步骤如下,就是我已经训练好了一个感知器模型,后面对于要预测的样本点,带入模型中,如果y>0,那么就说明是直线的右侧,也就...原创 2019-06-19 14:54:12 · 29895 阅读 · 8 评论 -
BP神经网络
转自 :https://www.cnblogs.com/Determined22/p/6562546.html反向传播的计算过程:几点说明:1.反向传播,传播的是误差, 但是与总体误差的概念不同,总体误差可以使交叉熵损失,平方差损失等是个标量, 反向传播中间层误差是个向量2.上面提到的4个bp公式,都是一般形式下的, 没有指定损失函数3.不管是最后一层误差,还是...原创 2019-06-04 22:35:13 · 438 阅读 · 0 评论