当前搜索:

深度学习:语言模型的评估标准

http://blog.csdn.net/pipisorry/article/details/78677580 语言模型的评估主要measure the closeness,即生成语言和真实语言的近似度。 Classification accuracy provides additional information about the po...
阅读(131) 评论(0)

深度学习:长短期记忆模型LSTM的变体和拓展

LSTM模型的拓展[Greff, Klaus, et al. "LSTM: A search space odyssey." TNNLS2016] 探讨了基于Vanilla LSTM (Graves & Schmidhube (2005))之上的8个变体,并比较了它们之间的性能差异,包括:没有输入门 (No Input Gate, NIG) 没有遗忘门 (No Forget Gate, NFG)...
阅读(252) 评论(0)

深度学习:自然语言生成-集束搜索beam search和随机搜索random search

http://blog.csdn.net/pipisorry/article/details/78404964集束搜索BeamSearch在sequence2sequence模型中,beam search的方法只用在测试的情况(decoder解码的时候),因为在训练过程中,每一个decoder的输出是有正确答案的,也就不需要beam search去加大输出的准确率。predict阶段的decode...
阅读(11306) 评论(0)

条件随机场CRF - 学习和预测

CRF的学习即CRF的参数估计问题。条件随机场模型实际上是定义在时序数据上的对数线性模型(LR模型同样是),其学习方法包括极大似然估计和正则化的极大似然估计。具体的优化实现算法有改进的迭代尺度法IIS、梯度下降法以及拟牛顿法。改进的迭代尺度法(IIS)         已知训练数据集,由此可知经验概率分布  ,可以通过极大化训练数据的对数似然函数来求模型参数。         训练数据的对数似然函...
阅读(229) 评论(0)

条件随机场CRF - 表示

CRF简介HMM的局限性         1,该模型定义的是联合概率,必须列举所有观察序列的可能值,而这对多数领域来说是比较困难的。         2,基于观察序列中的每个元素都相互条件独立。即:在任何时刻观察值仅仅与状态序列中的一个状态有关。而大多数现实世界中的真是观察序列是有多个相互作用的特征和观察序列中较长范围内的元素之间的依赖而形成的。 条件随机场就解决了第二个局限性。词性标注问题示例假...
阅读(325) 评论(0)

马尔可夫随机场 MRF

马尔可夫网马尔科夫网是使用无向图描述的图模型,是刻画X上联合分布的一种方法,表示一个分解方式,也表示一组条件独立关系。马尔科夫随机场( Markov random field , MRF),也被称为马尔科夫网络( Markov network )或者无向图模型( undirected graphical model )( Kindermann and Snell, 1980 ),包含一组结点,每个...
阅读(260) 评论(0)

深度学习:长短期记忆模型LSTM

lstm可以减少梯度消失:[RNN vs LSTM: Vanishing Gradients]LSTM模型(long-short term memmory)长短期记忆模型(long-short term memory)是一种特殊的RNN模型,是为了解决RNN模型梯度弥散的问题而提出的;在传统的RNN中,训练算法使用的是BPTT,当时间比较长时,需要回传的残差会指数下降,导致网络权重更新缓慢,无法体...
阅读(291) 评论(0)

重复未名

from: ref:...
阅读(168) 评论(0)

深度学习:Seq2seq模型

Encoder-Decoder模型和Attention模型。seq2seq是什么?简单的说,就是根据一个输入序列x,来生成另一个输出序列y。seq2seq有很多的应用,例如翻译,文档摘取,问答系统等等。在翻译中,输入序列是待翻译的文本,输出序列是翻译后的文本;在问答系统中,输入序列是提出的问题,而输出序列是答案。Encoder-Decoder模型为了解决seq2seq问题,有人提出了encoder...
阅读(290) 评论(0)

深度学习:循环神经网络RNN的变体

双向RNN:BRNN模型(Bidirectional RNN)BRNN不仅接受上一个时刻的隐层输出作为输入,也有接受下一个时刻的隐层输出作为输入;Structure of a bidirectional recurrent neural network as described by Schuster and Paliwal in Schuster and Paliwal [1997].BRNN与...
阅读(153) 评论(0)

递推关系中的数列通项

http://blog.csdn.net/pipisorry/article/details/78142983普通方法叠加法/叠乘法公式法阶差法待定系数法辅助数列法归纳、猜想倒数法[求解数列通项公式的常用方法]某小皮特征方程法(一阶线性递推式)设已知数列的项满足,其中求这个数列的通项公式?特征方程法:针对问题中的递推关系式作出一个方程称之为特征方程;借助这个特征方程的根快速求解通项公式.定理1:设...
阅读(279) 评论(0)

有放回采样和无放回采样

随机采样可以分为随机欠采样和随机过采样两种类型。随机欠采样顾名思义即从多数类$S_maj$中随机选择少量样本$E$再合并原有少数类样本作为新的训练数据集,新数据集为$S_min+E$;随机欠采样有两种类型分别为有放回和无放回两种,无放回欠采样在对多数类某样本被采样后不会再被重复采样,有放回采样则有可能。放回子采样:bagging(bootstrap aggregation)方法{有放回的随机采样,...
阅读(745) 评论(0)

不平衡数据的机器学习

不平衡数据的场景出现在互联网应用的方方面面,如搜索引擎的点击预测(点击的网页往往占据很小的比例),电子商务领域的商品推荐(推荐的商品被购买的比例很低),信用卡欺诈检测,网络攻击识别等等。问题定义那么什么是不平衡数据呢?顾名思义即我们的数据集样本类别极不均衡,以二分类问题为例,假设我们的数据集是$S$,数据集中的多数类为$S_maj$,少数类为$S_min$,通常情况下把多数类样本的比例为$100:...
阅读(530) 评论(0)

Sigmod/Softmax变换

http://blog.csdn.net/pipisorry/article/details/77816624Logistic/Softmax变换sigmoid函数/Logistic 函数取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,可以用来做二分类。sigmoid 的导数表达式为: sigmoid 原函数及导数图形如下:Note: 从导数表达式可知,logit梯度最大为0.2...
阅读(830) 评论(0)

深度学习:循环神经网络RNN

http://blog.csdn.net/pipisorry/article/details/77776743RNN模型循环神经网络(recurrent neural network,RNN)是一种具有反馈结构的神经网络,其输出不但与当前输入和网络的权值有关,而且也与之前网络的输入有关;RNN通过添加跨越时间点的自连接隐藏层,对时间进行建模;换句话说,隐藏层的反馈,不仅仅进入输出端,而且还进入了下...
阅读(260) 评论(0)

深度学习:卷积神经网络CNN变体

带步幅的多通道巻积很多时候,我们输入的是多通道图像。如RGB三通道图像,下图就是。也有可能我们出于特定目的,将几张图组成一组一次性输入处理。多通道巻积假定我们有一个 4 维的核张量 K,它的每一个元素是 K i,j,k,l ,表示输出中处于通道 i 的一个单元和输入中处于通道 j 中的一个单元的连接强度,并且在输出单元和输入单元之间有 k 行 l 列的偏置。假定我们的输入由观测数据 V 组成,它的...
阅读(155) 评论(0)

深度学习:卷积神经网络CNN

Convolutional Neural Networks卷积神经网络       卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状...
阅读(280) 评论(0)

未名

。...
阅读(1850) 评论(0)

深度学习:词嵌入word2vec

http://blog.csdn.net/pipisorry/article/details/76147604 word2vec简介 深度学习在自然语言处理中第一个应用:训练词嵌入。通过词嵌入的词表示方式,大量的nlp领域的任务都得到了提升。Google 的 Tomas Mikolov 在《Efficient Estimation of Word Representation ...
阅读(239) 评论(0)

深度学习:Embedding

One-hot Embedding假设一共有个物体,每个物体有自己唯一的id,那么从物体的集合到有一个trivial的嵌入,就是把它映射到中的标准基,这种嵌入叫做One-hot embedding/encoding.应用中一般将物体嵌入到一个低维空间 ,只需要再compose上一个从到的线性映射就好了。每一个 的矩阵都定义了到的一个线性映射: 。当 是一个标准基向量的时候,对应矩阵中的一列,这就是...
阅读(2568) 评论(9)
592条 共30页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:3148948次
    • 积分:28341
    • 等级:
    • 排名:第214名
    • 原创:557篇
    • 转载:30篇
    • 译文:5篇
    • 评论:284条
    Welcome to 皮皮blog~

    博客专栏
    最新评论