深度学习
文章平均质量分 94
lilhen
这个作者很懒,什么都没留下…
展开
-
深度学习优化器
Batch gradient descent每次更新我们需要计算整个数据集的梯度,因此使用批量梯度下降进行优化时,计算速度很慢,而且对于不适合内存计算的数据将会非常棘手。批量梯度下降算法不允许我们实时更新模型。但是批量梯度下降算法能确保收敛到凸平面的全局最优和非凸平面的局部最优。SGD(Stochastic gradient descent)随机梯度下降算法参数更新针对每一个样...转载 2019-03-05 18:34:23 · 558 阅读 · 0 评论 -
神经网络26 个激活函数汇总
在神经网络中,激活函数决定来自给定输入集的节点的输出,其中非线性激活函数允许网络复制复杂的非线性行为。正如绝大多数神经网络借助某种形式的梯度下降进行优化,激活函数需要是可微分(或者至少是几乎完全可微分的)。此外,复杂的激活函数也许产生一些梯度消失或爆炸的问题。因此,神经网络倾向于部署若干个特定的激活函数(identity、sigmoid、ReLU 及其变体)。下面是 26 个激活函数的图示及其...转载 2018-09-06 20:06:17 · 15974 阅读 · 2 评论 -
对学习/理解 Word2Vec 有帮助的材料
本篇则主要记录中文的资料和必要的英文资料。理解 Word2Vec 主要是理解一些概念和实践技巧:概念包括词的分布式表示、词嵌入、神经网络的语言模型,这些内容网上解析 W2V 的几乎都涉及到了,找个靠谱的看一遍即可;Word2Vec 的主要贡献不在算法,而在于对以上方法做了一定的简化和速度上的改进,就像原文中说的现在单机可在一天内训练亿级语料,这就是 CBOW 和 Skip-Gram、Hi...转载 2018-09-04 15:50:54 · 201 阅读 · 0 评论