- 博客(65)
- 资源 (1)
- 收藏
- 关注
原创 论文《Distributed Representations of words and Phrase and their Compositionality》
放在开头:强推这位大神写的博客,对word2vec的原理讲的贼清楚! 博客地址1:https://www.cnblogs.com/pinard/p/7160330.html 博客地址2:http://www.cnblogs.com/pinard/p/7243513.html 博客地址3:http://www.cnblogs.com/pinard/p/7249903.html 论文...
2018-04-03 15:21:38
573
转载 梯度下降与梯度上升的区别
我们往往能看到在对模型进行优化时,有的说用梯度下降,有的说用梯度上升,这是为什么呢。最主要是因为目标不一样,梯度下降是求局部极小值,而梯度上升是求局部最大值。如logistic的目标函数: 这里的优化目标是出现的概率值,我们要求概率的最大值,也就是MLE(极大似然估计),所以用梯度上升法。而线性回归的代价函数为: 优化的目标值是误差,我们要求误差最小值,所以使用的是梯度...
2018-04-02 15:42:39
4718
转载 CSDN插入数学公式的方法
参考地址:https://blog.csdn.net/the_lastest/article/details/73350493 参考地址:https://blog.csdn.net/huangfei711/article/details/50764594
2018-04-02 15:33:34
1666
原创 《自然语言处理宗述》英文版N-gram阅读笔记
第四章 N-gram模型:用前面的N-1个词去预测第N个词的概率的模型。并且这种预测第N个词的模型。N指的是句子中的连续N个词。最终显示他与预测一系列词出现的概率相似。 4.2 simple(unsmoothed)N-grams 我们的目标是计算在给定一些内容h,来计算词w出现的概率,即P(w | h).比如计算P(the | its water is...
2018-04-02 14:32:36
479
转载 训练集中的正负样本比例失调怎么办
1,通过过抽样和欠抽样解决样本不均衡 1,过抽样:过抽样也叫做上采样(over-sampling).这种方法通过增加分类中少数样本的数量来实现样本均衡。最直接的方法是简单复制少数样本形成多条记录。比如正负比例为1:10,那么我们可以将正例复制9遍来达到正负比例1:1。但是这种方法的缺点就是如果样本特征少而可能导致过拟合的问题;经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一...
2018-03-29 13:40:28
8093
转载 关于sigmoid与binary_crossentropy,以及softmax与categorical_crossentropy的关系,以及各损失函数的定义。
1,用sigmoid作为激活函数,为什么往往损失函数选用binary_crossentropy 参考地址:https://blog.csdn.net/wtq1993/article/details/517414712,softmax与categorical_crossentropy的关系,以及sigmoid与bianry_crossentropy的关系。 参考地址:https://www....
2018-03-29 11:20:07
33430
原创 论文《Adversarial Reading Networks For Machine Comprehension》
综述:文中描述当前阅读理解任务中受限于监督学习设置,以及可用的数据集。这篇论文主要提出关于阅读理解任务中的对抗学习以及self-play.它用一个名为reader network来找到关于text和query的答案,还用一个名为narrator network的网络来混淆text的内容,来降低reader network网络成功的可能性。然后取得了较好的效果。 文章的贡献: ...
2018-03-28 10:07:39
488
原创 python实现字典按value排序,以及按照key排序的实现方法
字典按照value大小进行排序的实现方法: 可以通过用lambda以及sorted()函数结合的方式来实现排序,如下: 升序: sorted(dict.items(),lambda x,y: cmp(x[1],y[1])) 降序: sorted(dict.items(),lambda x,y:cmp(x[1],y[1]),reverse...
2018-03-27 14:01:20
3090
原创 论文笔记《End to end memory networks》
论文地址 论文代码这篇论文在简介中说是基于Memory Network而来的。 论文第一部分介绍说这相当于一个连续型的Memory Network(问号脸,后续看)。这个模型的一个特点是end-to-end,可以被训练为从输入一直到输出,比其他的模型更加的方便。不像Memory Network在每一层都需要监督信息。 模型具体操作流程如下图: 在模...
2018-03-23 17:19:53
699
转载 python list和str的转换
参考地址:http://blog.csdn.net/roytao2/article/details/53433373使用join函数可以实现从list转换为str,而str转换为list可以直接用list(str)来转换,同时可以使用split函数将str转换为list。...
2018-03-16 12:18:33
788
原创 李沐第十八课《seq2seq》
这节课主要讲了两个东西,一个是seq2seq(编码器-解码器),一个是attention机制 seq2seq 当输入和输出都不是定长的时候,比如翻译等,我们可以采用编码器-解码器机制,编码器对应输入序列,解码器对应输出序列。 1,编码器的作用是将一个不定长的输入序列转换为一个定长的背景向量c 2,编码器最终输出的背景向量c,这个背景向量c编码了输入序列X1,X2,X3.....
2018-03-06 15:19:29
426
原创 论文笔记《Gated-Attention Readers for Text Comprehension》
来源1606.01549 这篇论文提出的模型叫做GA Reader,用的是GRU,GRU中的两个门及候选状态的推理公式如下: GA Reader的实现思路为: 1,对于query首先也是用双向GRU处理,然后分别获取最后的状态concate一起。 2,对于doc也是用双向GRU处理,但是是输出每个时刻的Hidden,最后concate在一起。 ...
2018-03-06 14:31:01
1406
原创 李沐第十七课《词向量-Glove和fastText》
Glove使用了词与词之间的共现(co-occurrence)信息,假设元素Xij为词j出现在词i的环境(context)的次数。这里的”环境”有多种可能的定义。比如,在一段文本序列中,如果词j出现在词i左边或者右边不超过10个词的距离,我们认为词j出现在词i的环境一次。那么词j出现在词i的环境的概率,这一概率也叫做词i和词j的共现概率,如下图: 后续计算如下图: ...
2018-03-02 16:40:50
3826
原创 keras池化层调参笔记
今天在调参的过程中,在调maxpooling时,发现了一个小技巧,假如对于一个维度为(None,20,500)的query_conv进行池化操作。 如果代码为 pool_query = MaxPooling1D(pool_size=20)(query_conv) 那么最终pool_query的最终维度为(None,1,500) 但是如果代码为 pool_quer...
2018-03-02 15:55:11
1482
原创 李沐第十六课《词向量word2vec》
首先word2vec只是一个工具,然后word2vec主要包含两个模型:skip-gram(跳字模型)和CBOW模型(continuous bag of words 连续词袋模型),然后还包括两种高效的训练方法:负采样(negative sampling)和层序softmax(hierarchical softmax)。word2vec可以较好的表达不同词之间的相似和类比关系。 ...
2018-02-28 19:30:22
817
1
原创 论文笔记《A Thorough Examination of CNN/Daliy Mail Reading Comprehension Task》
论文地址:1606.02858 首先论文的先提出了两个模型,第一个是传统的特征模型,另一个是end-to-end的神经网络模型 第一个特征模型主要是用来探索到底哪些特征对这个任务是有作用的,这个模型最终选出答案的方法如下图红圈中圈出来的。也就是对于每个entity e都产生一个fp,q(e)向量,然后用这些来计算权重,最终排序选出权重值最大的。 模型所选用的...
2018-02-28 11:02:18
1422
原创 李沐第十五课--GRU、LSTM等
前情回要:上节课可以得到用梯度裁剪可以解决梯度爆炸问题,那么对于梯度消失问题,我们可以使用GRU和LSTM来解决。 GRU: GRU中有两个比较重要的门,一个叫重置门(Rt【reset】),一个叫更新门(Zt【update】), 1,下图中第一个公式是重置门的计算方式, 2, 第二个公式是更新门的计算方式, 3,第三行是暂时的、候选的Ht的计算方式【注意第三个公...
2018-02-26 20:59:08
529
原创 论文《Text Understanding with the Attention Sum Reader Network》笔记
来源 1603.01547 这篇论文主要是提出了一个新模型Attention Sum Reader(AS Reader),但这篇论文的局限是不能产生不包括在doc中的answer。 模型流程: 1. 使用双向GRU/LSTM计算query的embedding表示query_emb,使用正向尾词和反向首词拼接而成 2,使用双向GRU/LSTM计算doc的embe...
2018-02-26 19:54:47
666
原创 李沐第十四课-实现、训练和应用循环神经网络
两个问题: 1,如何初始化RNN中的初始隐含层H0 2,如何利用RNN最后输出的隐含层Hn, 如下图中所描述的(1)(3)作为一个batch_size,(2)(4)作为一个batch_size,这样就可以实现(1)的最后一个隐含层H3可以作为下一个batch_size的(2)的初始隐含层。 ...
2018-02-25 19:58:03
369
原创 李沐第十三课--时间反向传播
反向传播是计算深度学习模型参数梯度的方法。总的来说,反向传播中会依据微积分中的链式法则,按照输出层、靠近输出层的隐含层、最近输入层的隐含层和输入层的次序,依次计算并存储模型损失函数有关模型各层的中间变量和参数的梯度 反向传播对于各层中变量和梯度的计算可能会依赖各层变量和参数的当前值 正向传播:对深度学习模型按照输入层、最近输入层的隐含层、靠近输出层的隐含层和输出层的次序,依次计算并存储模型的中...
2018-02-24 19:54:40
498
转载 阅读理解中模型结构总概
目前阅读理解领域出现了很多具体的模型,但是如果对这些模型进行技术思路梳理的话,会发现本质上大多数模型都是论文“Teaching Machines to Learn and Comprehend”提出的两个基础模型“Attentive Reader”和“Impatient Reader”的变体。 将其归纳为“一维匹配模型”、“二维匹配模型”、‘推力模型’等三类模型。其中一维匹配模型和二维...
2018-02-24 13:52:17
2760
原创 RNN笔记随写--李沐第十二课
今天看了李沐课程的第十二课,主要学习到了RNN的具体结构,以及弄明白了RNN中隐层的具体作用。 图中的前两行表示的是RNN中的H(隐层)、Y(输出)的具体计算方式 从图中我们可以得出,是先由输入Xt和上个隐层状态Ht-1得到本层的隐层Ht,再由本层的Ht得到本层的输出Yt。隐层的具体作用我的理解是:循环神经网络使用隐层来记录前面看到的数据来帮助当前预测。比如图中,在第一...
2018-02-23 20:23:05
343
原创 阅读理解中对于doc和q的表示方法
一、对于doc的表示方法方法一: 最常见的一种方法是将一篇文章看成一个有序的单词流序列,如下模型所示,图中的每个圆圈代表某个单词的神经网络语义表达,图中的BiRNN代表双向RNN模型。 在这个序列上使用RNN来对文章进行建模表达,每个单词对应RNN序列中的每个时间步的输入,RNN的隐层状态代表融合了本身单词以及其上下文语义的语言编码。 这种表示方法的特点就是,它不对文章的整体语义进行编...
2018-02-23 09:48:16
303
原创 论文笔记:Teaching Machine to Read and Comprehend
这篇论文可以说是阅读理解领域的奠基之作。 文中最主要的收获就是,提出的三种神经网络模型 1. Deep LSTM Reader 处理过程如图,这个图是用两层的lstm来encoder document ||| query对(这个符号|||表示链接),然后再用得到的表示做分类(得到的输出y,再输入到图右g函数,来做判断)。但是这个两层的lstm我暂时的理解是用了两个lstm...
2018-02-01 15:35:37
3166
1
原创 Linux小知识
Linux中vim界面:跳转到文件的第一行,用shift +g 跳转到文件的最后一行,用gg 跳到某一行的最后一个字符,用shift + 4 跳到某一行的第一个字符,按1就可以 vim界面用vsp是水平分屏,用sp是垂直分屏 ls | wc -w可以用来查看一个文件夹下面有多少个文件 ifconfig命令显示当前所连主机ip地址等。...
2018-02-01 11:21:32
236
背包九讲pdf
2017-03-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅