当前搜索:

深度学习:语言模型的评估标准

http://blog.csdn.net/pipisorry/article/details/78677580 语言模型的评估主要measure the closeness,即生成语言和真实语言的近似度。 Classification accuracy provides additional information about the po...
阅读(113) 评论(0)

深度学习:长短期记忆模型LSTM的变体和拓展

LSTM模型的拓展[Greff, Klaus, et al. "LSTM: A search space odyssey." TNNLS2016] 探讨了基于Vanilla LSTM (Graves & Schmidhube (2005))之上的8个变体,并比较了它们之间的性能差异,包括:没有输入门 (No Input Gate, NIG) 没有遗忘门 (No Forget Gate, NFG)...
阅读(242) 评论(0)

深度学习:自然语言生成-集束搜索beam search和随机搜索random search

http://blog.csdn.net/pipisorry/article/details/78404964集束搜索BeamSearch在sequence2sequence模型中,beam search的方法只用在测试的情况(decoder解码的时候),因为在训练过程中,每一个decoder的输出是有正确答案的,也就不需要beam search去加大输出的准确率。predict阶段的decode...
阅读(11285) 评论(0)

深度学习:长短期记忆模型LSTM

lstm可以减少梯度消失:[RNN vs LSTM: Vanishing Gradients]LSTM模型(long-short term memmory)长短期记忆模型(long-short term memory)是一种特殊的RNN模型,是为了解决RNN模型梯度弥散的问题而提出的;在传统的RNN中,训练算法使用的是BPTT,当时间比较长时,需要回传的残差会指数下降,导致网络权重更新缓慢,无法体...
阅读(268) 评论(0)

深度学习:Seq2seq模型

Encoder-Decoder模型和Attention模型。seq2seq是什么?简单的说,就是根据一个输入序列x,来生成另一个输出序列y。seq2seq有很多的应用,例如翻译,文档摘取,问答系统等等。在翻译中,输入序列是待翻译的文本,输出序列是翻译后的文本;在问答系统中,输入序列是提出的问题,而输出序列是答案。Encoder-Decoder模型为了解决seq2seq问题,有人提出了encoder...
阅读(262) 评论(0)

深度学习:循环神经网络RNN的变体

双向RNN:BRNN模型(Bidirectional RNN)BRNN不仅接受上一个时刻的隐层输出作为输入,也有接受下一个时刻的隐层输出作为输入;Structure of a bidirectional recurrent neural network as described by Schuster and Paliwal in Schuster and Paliwal [1997].BRNN与...
阅读(149) 评论(0)

深度学习:循环神经网络RNN

http://blog.csdn.net/pipisorry/article/details/77776743RNN模型循环神经网络(recurrent neural network,RNN)是一种具有反馈结构的神经网络,其输出不但与当前输入和网络的权值有关,而且也与之前网络的输入有关;RNN通过添加跨越时间点的自连接隐藏层,对时间进行建模;换句话说,隐藏层的反馈,不仅仅进入输出端,而且还进入了下...
阅读(239) 评论(0)

深度学习:卷积神经网络CNN变体

带步幅的多通道巻积很多时候,我们输入的是多通道图像。如RGB三通道图像,下图就是。也有可能我们出于特定目的,将几张图组成一组一次性输入处理。多通道巻积假定我们有一个 4 维的核张量 K,它的每一个元素是 K i,j,k,l ,表示输出中处于通道 i 的一个单元和输入中处于通道 j 中的一个单元的连接强度,并且在输出单元和输入单元之间有 k 行 l 列的偏置。假定我们的输入由观测数据 V 组成,它的...
阅读(150) 评论(0)

深度学习:卷积神经网络CNN

Convolutional Neural Networks卷积神经网络       卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状...
阅读(256) 评论(0)

深度学习:词嵌入word2vec

http://blog.csdn.net/pipisorry/article/details/76147604 word2vec简介 深度学习在自然语言处理中第一个应用:训练词嵌入。通过词嵌入的词表示方式,大量的nlp领域的任务都得到了提升。Google 的 Tomas Mikolov 在《Efficient Estimation of Word Representation ...
阅读(230) 评论(0)

深度学习:Embedding

One-hot Embedding假设一共有个物体,每个物体有自己唯一的id,那么从物体的集合到有一个trivial的嵌入,就是把它映射到中的标准基,这种嵌入叫做One-hot embedding/encoding.应用中一般将物体嵌入到一个低维空间 ,只需要再compose上一个从到的线性映射就好了。每一个 的矩阵都定义了到的一个线性映射: 。当 是一个标准基向量的时候,对应矩阵中的一列,这就是...
阅读(2530) 评论(9)

深度学习:神经网络正则化(防止过拟合方法)

训练神经网络模型时,如果训练样本较少,为了防止模型过拟合,Dropout可以作为一种trikc供选择。Dropout是hintion最近2年提出的,源于其文章Improving neural networks by preventing co-adaptation of feature detectors.中文大意为:通过阻止特征检测器的共同作用来提高神经网络的性能。Dropout是指在模型训练时...
阅读(159) 评论(0)

深度学习:梯度消失和梯度爆炸

梯度消失主要是因为网络层数太多,太深,导致梯度无法传播。本质应该是激活函数的饱和性。[神经网络中的激活函数 ]DNN结果出现nan值?梯度爆炸,导致结果不收敛。都是梯度太大惹的祸,所以可以通过减小学习率(梯度变化直接变小)、减小batch size(累积梯度更小)、 features规格化(避免突然来一个大的输入)。 RNN的梯度爆炸和消失问题不幸的是,实践中前面介绍的几种RNNs并...
阅读(234) 评论(0)

深度学习:径向基网络(RBF)

如果对于输入空间的某个局部区域只有少数几个连接权值影响输出,则该网络称为局部逼近网络。常见的局部逼近网络有RBF网络、小脑模型(CMAC)网络、B样条网络等。RBF网络能够逼近任意的非线性函数,可以处理系统内的难以解析的规律性,具有良好的泛化能力,并有很快的学习收敛速度,已成功应用于非线性函数逼近、时间序列分析、数据分类、模式识别、信息处理、图像处理、系统建模、控制和故障诊断等。为什么RBF网络学...
阅读(112) 评论(0)

深度学习:神经网络中的激活函数

激活函数神经网络神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数 Activation Function。  为什么要用激活函数神经网络中激活函数的主要作用是提供网络的非线性建模能力,如不特别说明,激活函数一般而言是非线性函数。假设一个示例神经网络中仅包含线性卷积和全连接运算,那么该网络仅能够表达线性映射,即便增加网络的深度也依旧还是线性映射,难以有效建模...
阅读(269) 评论(0)

深度学习:前馈神经网络neural network

前馈神经网络:FFNN模型(feedforward neural network)固定基函数的线性组合构成的回归模型和分类模型。我们看到,这些模型具有一些有用的分析性质和计算性质,但是它们的实际应用被维数灾难问题限制了。为了将这些模型应用于大规模的问题,有必要根据数据调节基函数。一种方法是事先固定基函数的数量,但是允许基函数可调节。换句话说,就是使用参数形式的基函数,这些参数可以在训练阶段调节。在...
阅读(159) 评论(0)

深度学习:感知机perceptron

感知机是二分类的线性分类模型,输入是特征向量,输出是类别,取值+1,-1。感知机学习旨在求出将训练数据进行线性划分的分离超平面wx + b = 0,其中w是超平面的法向量,b是超平面的截距。感知机模型1.分离超平面将样本点分成两部分,位于法向量w所指向的一面是正样本,另一面则是负样本;2.由输入空间到输出空间的模型函数如下:策略1.特征空间中任意一个样本点x0到分离超平面的距离可以记为:2.感知机...
阅读(80) 评论(0)

深度学习:综述

深度学习相比于传统方法的优势随着训练量的提高,传统方法很快走到天花板,而Deep Learning的效果还能持续走高。其实这是一个特征表达力的问题,传统方法特征表达力,不如Deep Learning的多层学习得到的更有效果的表达。举个例子,假定有一种疾病,这种疾病容易在个高且胖的人群,以及个矮且瘦的人群中易感。那么任意从给一个特征角度上看,比如肥胖,那么胖的这部分人中,得此病的概率为50%,不胖的...
阅读(125) 评论(0)
    个人资料
    • 访问:3122500次
    • 积分:28222
    • 等级:
    • 排名:第212名
    • 原创:557篇
    • 转载:30篇
    • 译文:5篇
    • 评论:280条
    Welcome to 皮皮blog~

    博客专栏
    最新评论