深度学习
文章平均质量分 83
庞加莱
这个作者很懒,什么都没留下…
展开
-
使用early stopping解决神经网络过拟合问题
神经网络训练多少轮是一个很关键的问题,训练轮数少了欠拟合(underfit),训练轮数多了过拟合(overfit),那如何选择训练轮数呢?Early stopping可以帮助我们解决这个问题,它的作用就是当模型在验证集上的性能不再增加的时候就停止训练,从而达到充分训练的作用,又避免过拟合。一、在Keras中使用early stoppingKeras中有EarlyStopping类,可以...原创 2020-02-14 01:02:59 · 10663 阅读 · 0 评论 -
在神经网络中使用dropout
一、什么是dropoutdropout是解决神经网络模型过拟合的好办法,那什么是dropout呢?简而言之,它就是随机的将输入的张量中元素置为0,dropout可以理解为一种集成模型。因为我们将元素置为0后,相当于主动抛弃了一部分特征,强迫模型基于不完整的特征进行学习,而每次特征又不一样,所以避免模型过度学习某些特征,得到避免过拟合的效果。我们看如下代码感受下什么是dropout,首先我们有一...原创 2020-02-14 17:40:05 · 12405 阅读 · 0 评论 -
使用Keras计算余弦相似度(Cosine Similarity)
因为Merge函数在Keras新版本中已经不再使用了,在计算批次余弦相似度时,需要自定义函数。余弦相似度定义如下:要计算两个向量相似度有如下步骤:分别计算两个向量l2范式,计算两个向量的点乘 点乘的结果除以l2范式的乘积,注意分母不要为0我们使用Keras后端函数计算Cosine相似度,因为在使用后端函数时候要使用Lamda函数进行包裹,否则程序会影响出错。K.batch_dot(...原创 2019-08-05 18:30:53 · 8994 阅读 · 2 评论 -
使用K.function()调试keras
Keras的底层库使用Theano或TensorFlow,这两个库也称为Keras的后端。无论是Theano还是TensorFlow,都需要提前定义好网络的结构,也就是常说的“计算图”。在运行前需要对计算图编译,然后才能输出结果。那这里面主要有两个问题,第一是这个图结构在运行中不能任意更改,比如说计算图中有一个隐含层,神经元的数量是100,你想动态的修改这个隐含层神经元的数量那是不可以的;第二是调...原创 2019-06-15 21:04:56 · 10624 阅读 · 0 评论 -
Keras Bug 解决方法 Exception ignored in: bound method BaseSession.__del__ of
报错信息Exception ignored in: <bound method BaseSession.__del__ of <tensorflow.python.client.session.Session object at 0x000000001AB286D8>>Traceback (most recent call last): File "python...原创 2019-06-03 14:36:41 · 10658 阅读 · 1 评论 -
小样本学习论文总结(few-shot learning)
2011Lake, Brenden, et al. "One shot learning of simple visual concepts."Proceedings of the annual meeting of the cognitive science society. Vol. 33. No. 33. 2011.[paper]2013Socher, Richard, et ...原创 2019-03-24 10:58:47 · 5761 阅读 · 2 评论 -
文本匹配(Text Matching&Answer Selection)论文总结(不断更新)
2013Huang, Po Sen , et al. "Learning deep structured semantic models for web search using clickthrough data."Proceedings of the 22nd ACM international conference on Conference on information &...原创 2019-01-29 10:20:07 · 2426 阅读 · 1 评论 -
BahdanauAttention与LuongAttention注意力机制简介
在使用tensorflow时发现其提供了两种Attention Mechanisms(注意力机制),如下The two basic attention mechanisms are:tf.contrib.seq2seq.BahdanauAttention (additive attention, ref.) tf.contrib.seq2seq.LuongAttention (multi...原创 2018-09-26 19:31:33 · 33334 阅读 · 6 评论 -
tf.nn.dynamic_rnn的输出outputs和state含义
一、 tf.nn.dynamic_rnn的输出tf.nn.dynamic_rnn的输入参数如下tf.nn.dynamic_rnn( cell, inputs, sequence_length=None, initial_state=None, dtype=None, parallel_iterations=None, swap_me...原创 2018-08-15 19:09:29 · 24016 阅读 · 10 评论