深度学习
文章平均质量分 78
Michael_Shentu
感兴趣方向:分布式计算与存储,广告计算学,分布式数据挖掘与机器学习,Hadoop,Spark,HBase
展开
-
Tensorflow中RNN以及衍生RNN的源码
# Copyright 2015 Google Inc. All Rights Reserved. # # Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file except in compliance with the License. # You may o...原创 2018-02-26 17:45:56 · 819 阅读 · 0 评论 -
LSTMCell 源码解析
相比于BasicLSTMCell, input_size 与 num_hidden 在LSTMCell中 并没有要求是相同的, LSTMCell根据输入向量大小input_size 来确定每个门对应的 隐含层神经元的全连接参数矩阵w以及bias参数的维度, 最终lstm cell的输出维度 等于 num_hidden, 具体物理架构图 参照另一篇 lstm网络的实际物理架构图在上图中,可以看到 实...原创 2018-02-26 12:42:23 · 1462 阅读 · 0 评论 -
LSTM 两个激励函数区别sigmoid 和tanh
sigmoid 用在了各种gate上,产生0~1之间的值,这个一般只有sigmoid最直接了。tanh 用在了状态和输出上,是对数据的处理,这个用其他激活函数或许也可以。原创 2017-08-06 22:58:14 · 41334 阅读 · 1 评论 -
LSTM 网络中几个门的理解
个人认为下面这篇博文非常适合初学或者学的很浅的朋友。转自http://www.jianshu.com/p/9dc9f41f0b29经常接触LSTM,GRU,RNN这些模型,对于LSTM的印象只是知道它用来解决梯度消失梯度爆炸问题,对于长距离的句子的学习效果不好的问题,而且大概知道里面是加了一些参数,加了门单元来选择忘记和记住一些信息。但是具体公式没有推过,所以理解的不够深。但原创 2017-08-06 22:51:46 · 25302 阅读 · 1 评论 -
TensorFlow的 数据和参数的输入 及变量存储
假如我想使用一个空的tensor呢?这就需要用到tf.placeholder() 和 feed_dict 。tf.placeholder() 在TensorFlow(后文简称TF)中,数据并不会保存为 integer, float, 或 string. 这些值都封装在 tensor 对象中,因此不能直接定义并使用一个变量例如x,因为你设计的模型可能需要受不同的数据集与不同的参数原创 2017-08-10 17:25:37 · 1823 阅读 · 0 评论 -
TensorFlow中的tf.nn.softmax_cross_entropy_with_logits 交叉熵 损失函数
交叉熵交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。tensorflow中自带的函数可以轻松的实现交叉熵的计算。tf.nn.softmax_cro转载 2017-08-10 14:27:20 · 2648 阅读 · 1 评论 -
softmax 损失函数以及梯度推导计算
在 考虑数值计算稳定性情况下的Softmax损失函数的公式如下 :对所有样本及计入正则化惩罚后,损失函数公式为:我们先从 Li看起。f(i,j)即矩阵f(x,w)中的第i,j个元素。我们与之前一样求出样本集与权重集之间的评分集即可。max(fj)即在第i个样本的所有分类得分中最大的得分。从式中看,评分集中的每一个元素都需要减去这个最大得分,这可以通过矩阵操作原创 2017-08-07 20:17:56 · 14952 阅读 · 5 评论 -
基于一阶 HMM 标注序列算法的分词算法解析
之前看到的有关python写的一篇 基于 一阶HMM 序列标注算法的分词代码,主要是基于B M E S序列状态和维特比算法,对当前的句子进行序列标注,然后基于标注序列进行中文分词,这也是目前主流的分词算法,因此结合代码,进行HMM 分词算法的详细分析,加深序列标注算法的理解,为后面的CRF + LSTM算法进行中文分词打下基础隐马尔科夫模型(HMM)模型介绍HMM模原创 2017-01-19 16:42:54 · 1692 阅读 · 0 评论 -
结合斯坦福深度学习教程 对于BP反向传播算法原理的推导过程解析
最近在对卷积神经网络(CNN)进行学习的过程中,发现自己之前对反向传播算法的理解不够透彻,所以今天专门写篇博客记录一下反向传播算法的推导过程,算是一份备忘录吧,有需要的朋友也可以看一下这篇文章,写的挺不错的:http://www.cnblogs.com/lancelod/p/4164231.html,本文也大量参考了这篇文章。本文在推导过程中忽略了偏置的存在,这样做是为了更简单明晰的阐述BP算法的转载 2017-02-06 16:22:07 · 4702 阅读 · 0 评论 -
LSTM 实际神经元隐含层物理架构原理解析
最近看一些基于LSTM网络的NLP案例代码,其中涉及到一些input_size, num_hidden等变量的时候,可能容易搞混,首先是参照了知乎上的一个有关LSTM网络的回答https://www.zhihu.com/question/41949741, 以及github上对于LSTM比较清晰的推导公式http://arunmallya.github.io/writeups/nn/lstm/in...原创 2018-02-27 17:36:00 · 8843 阅读 · 2 评论