![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
正霖
这个作者很懒,什么都没留下…
展开
-
KL散度与JS散度
KL散度与JS散度KL散度(Kullback-Leibler divergence)KL散度的计算公式KL散度的基本性质JS散度(Jensen-Shannon divergence)JS散度的数学公式不同于KL的主要两方面KL散度(Kullback-Leibler divergence)又称KL距离,相对熵。KL散度是描述两个概率分布P和Q之间差异的一种方法。直观地说,可以用来衡量给定任意分布...转载 2018-10-23 20:07:31 · 9908 阅读 · 0 评论 -
LSTM
本文前面译自Christopher Olah的博文LSTM基本介绍Long Short-Term Memory 长短期记忆网络,是一种特殊的RNN,能学习长期依赖性。适合于处理和预测 时间序列中间隔和延迟相对较长的重要事件,是解决长序依赖问题的有效技术LSTM区别于RNN的地方,主要在于它在算法中加入了一个判断信息有用与否的处理器,这个结构被称为cellcell中有三扇门:输入门,遗...翻译 2019-05-25 17:32:59 · 528 阅读 · 0 评论 -
RNN
转载自了不起的赵队,以做学习记录。RNN(Recurrent Neural Network)是一类用于处理序列数据的神经网络。首先需要明确什么是序列数据, 时间序列数据是指在不同时间点上收集到的数据,这类数据反应了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义,当然这里也可以不是时间,比如文字序列,但总归序列数据有一个特点:后面的数据跟前面的数据有关系。RNN的结构我门从基础...转载 2019-05-27 15:32:25 · 613 阅读 · 0 评论 -
深度学习训练中是否有必要使用L1获得稀疏解
内容来自知乎深度学习训练中是否有必要使用L1获得稀疏解?,整理以做记录。知乎专栏:CNN-L1正则的稀疏性 -无痛的机器学习中对比了L1和L2在CNN中的实践,并提出问题:稀疏解是否有意义?为何在实际中很少看见L1在深度学习中采用?Towser 的回答:Towser - 知乎没必要。因为:对于加了L1正则的神经网络,大部分深度学习框架自带的优化器(主要是SGD及其变种)训练获得不了稀疏...转载 2019-05-27 21:32:59 · 925 阅读 · 0 评论 -
L1/L2范数
文中内容为一下博文整理而来https://blog.csdn.net/iterate7/article/details/75443504https://blog.csdn.net/zhaomengszu/article/details/81537197什么是范数范数是具有“长度”概念的函数。在向量空间内,为所有的向量的赋予非零的增长度或者大小。不同的范数,所求的向量的长度或者大小是不同的。...转载 2019-06-05 11:57:40 · 14126 阅读 · 1 评论 -
模型的优化与训练 --- 梯度下降法及其衍生
梯度下降(Grandient Descent)梯度下降的核心原理:函数的梯度方向表示了函数值增长速度最快的方向,那么和它相反的方向就可以看作是函数值减少速度最快的方向。对机器学习模型优化问题,当目标设定为求解目标函数最小值时,只要朝着梯度下降的方向前进,就能不断逼近最优值。最简单的梯度下降算法 - 固定学习率的方法:待优化的函数 f(x)f(x)f(x)待优化函数的导数g(x)g(...翻译 2019-06-01 16:38:58 · 699 阅读 · 0 评论