深度学习_正霖的博客-CSDN博客

深度学习

关注

关注数：文章数：6 文章阅读量：26799 文章收藏量：155

作者: 正霖

这个作者很懒，什么都没留下…

展开

KL散度与JS散度

KL散度与JS散度KL散度(Kullback-Leibler divergence)KL散度的计算公式KL散度的基本性质JS散度(Jensen-Shannon divergence)JS散度的数学公式不同于KL的主要两方面KL散度(Kullback-Leibler divergence)又称KL距离，相对熵。KL散度是描述两个概率分布P和Q之间差异的一种方法。直观地说，可以用来衡量给定任意分布...

转载 2018-10-23 20:07:31 · 9908 阅读 · 0 评论
LSTM

本文前面译自Christopher Olah的博文LSTM基本介绍Long Short-Term Memory 长短期记忆网络，是一种特殊的RNN，能学习长期依赖性。适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,是解决长序依赖问题的有效技术LSTM区别于RNN的地方，主要在于它在算法中加入了一个判断信息有用与否的处理器，这个结构被称为cellcell中有三扇门：输入门，遗...

翻译 2019-05-25 17:32:59 · 528 阅读 · 0 评论
RNN

转载自了不起的赵队，以做学习记录。RNN（Recurrent Neural Network)是一类用于处理序列数据的神经网络。首先需要明确什么是序列数据，时间序列数据是指在不同时间点上收集到的数据，这类数据反应了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义，当然这里也可以不是时间，比如文字序列，但总归序列数据有一个特点：后面的数据跟前面的数据有关系。RNN的结构我门从基础...

转载 2019-05-27 15:32:25 · 613 阅读 · 0 评论
深度学习训练中是否有必要使用L1获得稀疏解

内容来自知乎深度学习训练中是否有必要使用L1获得稀疏解？，整理以做记录。知乎专栏：CNN-L1正则的稀疏性 -无痛的机器学习中对比了L1和L2在CNN中的实践，并提出问题：稀疏解是否有意义？为何在实际中很少看见L1在深度学习中采用？Towser 的回答：Towser - 知乎没必要。因为：对于加了L1正则的神经网络，大部分深度学习框架自带的优化器（主要是SGD及其变种）训练获得不了稀疏...

转载 2019-05-27 21:32:59 · 925 阅读 · 0 评论
L1/L2范数

文中内容为一下博文整理而来https://blog.csdn.net/iterate7/article/details/75443504https://blog.csdn.net/zhaomengszu/article/details/81537197什么是范数范数是具有“长度”概念的函数。在向量空间内，为所有的向量的赋予非零的增长度或者大小。不同的范数，所求的向量的长度或者大小是不同的。...

转载 2019-06-05 11:57:40 · 14126 阅读 · 1 评论
模型的优化与训练 --- 梯度下降法及其衍生

梯度下降（Grandient Descent）梯度下降的核心原理：函数的梯度方向表示了函数值增长速度最快的方向，那么和它相反的方向就可以看作是函数值减少速度最快的方向。对机器学习模型优化问题，当目标设定为求解目标函数最小值时，只要朝着梯度下降的方向前进，就能不断逼近最优值。最简单的梯度下降算法 - 固定学习率的方法：待优化的函数 f(x)f(x)f(x)待优化函数的导数g(x)g(...

翻译 2019-06-01 16:38:58 · 699 阅读 · 0 评论

深度学习

作者: 正霖

KL散度与JS散度

LSTM

RNN

深度学习训练中是否有必要使用L1获得稀疏解

L1/L2范数

模型的优化与训练 --- 梯度下降法及其衍生