- 博客(10)
- 收藏
- 关注
原创 word2vec中的subsampling和negative sampling
实现word2vec的skip-gram神经网络训练模型中,通过一个矩阵将输入的n维向量转化为m维向量,考虑到模型输入层和输出层的权重,会产生m*n*2个权重,一般词汇表长度n很大,name调整修正这么多权重使训练速度降低,同时需要大量的训练数据来调整权重防止过拟合,这样又增加了这个网络训练的复杂性。为了解决这个问题,Word2vec的作者又提出了三种方法:1. 把常用的词组作为一个单词,例如...
2018-08-14 20:18:22
2124
原创 LSTM与梯度消失
1. 标准RNN中处理序列数据的方法是将上一个state的信息传到下一个state中,表示成数学公式为st=f(W*(st-1,xt)+b),其中f为激活函数。在反向传播中,根据求导的链式法则,这种形式求得的梯度为一个矩阵W与激活函数导数的乘积。如果进行n次反向传播,梯度变化将会变为(W*f”)的n次方累乘。(1)如果乘积大于1,则梯度会随着反向传播层数n的增加而成指数增长,导致梯度爆炸;...
2018-08-14 13:31:57
4656
原创 Beam Search理解
beam search:在test的过程中生成几段序列的方式,通常用于机器翻译或看图说话中。beam search 中有一个重要的参数:beam size = k,表示最后生成的得分最高的前k个序列在看图说话或机器翻译中,最后生成的句子中的每个单词肯定是训练集所产生语料库中的单词,采用全局搜索,空间太大,效果提升并不明显。beam search的原理(下面用一个例子简单描述)在te...
2018-08-13 21:46:03
1132
原创 word embedding理解
word embedding:NLP语言模型中对单词处理的一种方式,这种技术会把单词或者短语映射到一个n维的数值化向量,核心就是一种映射关系,主要分为两种方式:1.one hot encoding:对语料库中的每个单词都用一个n维的one hot向量表示,其中n为语料库中不同单词的个数。这种方法的原理是把语料库中的不同单词排成一列,对于单词A,它在语料库中的位置为k,则它的向量表示为第k位为1...
2018-08-13 20:43:22
12770
原创 LSTM与GRU
很多博客已经详细讲述了lstm和gru的结构及公式,这里就不一一介绍了,参考下面链接,讲的挺详细https://blog.csdn.net/gzj_1101/article/details/79376798这篇文章主要讲自己对lstm与gru的区别及联系的理解。在传统RNN中,由于反向传播过程中出现激活函数的累乘,容易造成梯度消失和梯度爆炸,这就造成在较长的time-steps下,后面...
2018-08-13 16:04:35
6706
2
原创 标准RNN的推导
1.RNN前向计算:对于如下结构,x是输入,s为隐层,o为输出,U,W,V为不同层的权值,同一类型的权连接权值相同则ot可表示为其中,g,f为输出层,隐层的激活函数,f一般选择tanh函数,若RNN用于分类的话,g选择softmax函数2.RNN反向传播:BPTT算法,本质还是BP算法,因为RNN处理序列数据,所以在原有基础上增加了序列维度反向传播。BPTT的中心思想与BP算法...
2018-08-12 14:51:00
3640
1
原创 RNN标准模型及其变种
1.概念:RNN又名循环神经网络,是一类处理序列数据的神经网络,这个序列数据不只包括时间序列,还有文字序列等,即序列数据中后面的数据与前面的数据有关系2.结构:如上图所示,左边为RNN折叠图,右边为展开图。与基础的神经网络相比,RNN的不同之处在于在隐层之间的神经元之间也建立了权连接,随着序列的不断推进,隐层的前部将会通过W权连接影响到后部。3.特点(1)能够处理序列化数据,隐...
2018-08-12 10:46:55
4517
原创 numpy.cov协方差矩阵计算/官方文档解读
1.命令numpy.cov(m, y=None, rowvar=True, bias=False, ddof=None, fweights=None, aweights=None)2.参数Parameters ---------- m : 一维或2维数组,每行代表一个特征,每列代表一个样本 y : 数组,可选 额外的变量和观测值,与m格式相同,可以认...
2018-07-08 15:06:13
2893
2
转载 协方差矩阵
一、统计学的基本概念统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:均值:标准差:方差:均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很...
2018-07-08 11:15:03
2754
原创 sklearn之决策树学习
决策树(Decision Trees):非参数有监督学习,用来分类和回归决策树(DecisionTrees):非参数有监督学习,用来分类和回归目标:从数据特征学习得到简单决策,从而创建一个可以预测目标变量的模型决策树的优点:(1) 易理解,可视化方便(2) 数据准备少,注意:此模块不支持缺失值(3) 计算复杂度与模型数据点呈对数关系(4) 数值型和类别型数据均可处理(5) 可以...
2018-07-08 10:23:37
3752
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人