深度学习
文章平均质量分 82
谁画你多情华发
悲催的debug工程师
展开
-
为什么使用交叉熵损失函数
•使用极大似然原理导出交叉熵损失函数减轻了为每个模型设计损失函数的负担,选择了模型p(y|x)就明确了损失函数logp(y|x)•损失函数的梯度必须有足够大的预测性,这样才能很好的指导算法的学习。很多输出单元都会包含一个指数函数,当变量取绝对值非常大的负值时函数会变得饱和(函数变得很“平”),函数梯度变得很小,而负的对数似然能够抵消输出单元中的指数效果。(下面的推导过程说明了使用交叉熵损失函数...原创 2018-07-29 12:54:39 · 1014 阅读 · 0 评论 -
AlexNet学习笔记
1.网络结构上图从左到右: 第0层是输入层:输入大小为227×227×3大小的RGB图像 第1层是卷积层:(1)使用96个11×11×3的卷积核,s=4,p=0,输入为上一层的输出(下同),输出数据维度为55×55×96 (2)Local response normalization ...原创 2018-07-10 12:11:30 · 281 阅读 · 0 评论 -
github上vid2vid项目使用flownet导入 resample2d_cuda 时出现undefined symbol: _ZN2at5ErrorC1ENS_14SourceLocationE
解决方法:使用pytorch0.4.0,千万不要用0.4.1,pytorch更新太快了,有些代码会不兼容参考资料:https://github.com/NVIDIA/flownet2-pytorch/issues/79原创 2018-12-18 21:56:21 · 5859 阅读 · 10 评论 -
DiscoGAN论文"Learning to Discover Cross-Domain Relations with Generative Adversarial Networks"学习笔记
这是一篇研究如何使用GAN寻找域与域之间对应关系的论文。话不多说,直接分析模型:(1) 如果使用标准GAN网络将金发转换成黑发,只能保证生成的是黑发人物图像,因为判别器所做的仅仅是判断:生成的图像在多大程度上符合黑发人物的特征,无法保证转换后的人物和金发人物相貌相同(mode对应错误)。(2) 如果在标准GAN网络上使用重建损失,可以一定程度上改...原创 2018-12-25 16:04:35 · 1664 阅读 · 1 评论 -
ubuntu16.04+anaconda2+caffe2安装
经过好几天的折腾终于装好了caffe2,因为我最终目的是要安装Detectron: https://github.com/facebookresearch/Detectron/blob/master/INSTALL.md,所以本文为这个目的服务,是在anaconda2+python2环境下进行的。参考资料:https://blog.csdn.net/m0_37644085/article/de...原创 2019-01-04 19:50:46 · 374 阅读 · 0 评论 -
RNN的BPTT算法中的梯度消失问题
参考资料链接:https://zhuanlan.zhihu.com/p/22338087随时间的反向传播(BPTT)让我们先迅速回忆一下RNN的基本公式,注意到这里在符号上稍稍做了改变(变成),这只是为了和我参考的一些资料保持一致。同样把损失值定义为交叉熵损失,如下:这里,表示时刻正确的词,是我们的预测。通常我们会把整个句子作为一个训练样本,所以总体错误是每一时刻的错误的加和。...转载 2018-07-23 20:28:26 · 813 阅读 · 2 评论 -
tensorflow实现seq2seq模型中decoder出现ValueError: Dimensions must be equal, but are 512 and 277 for 'Decode
参考资料:https://www.xszz.org/faq-2/question-2018101955896.html原代码def decoder_lstm_based(h_decoder_in, encoder_final_state): cell_1 = tf.contrib.rnn.BasicLSTMCell(config.n_hidden, activation=tf.n...原创 2019-05-31 18:59:39 · 2869 阅读 · 1 评论 -
tensorflow中batch normalization的用法
转载:https://www.cnblogs.com/hrlnw/p/7227447.html转载 2019-06-30 23:30:04 · 138 阅读 · 0 评论