深度学习基础知识
pursuit_zhangyu
人工智障
展开
-
梯度消失
梯度消失是传统神经网络训练中非常致命的一个问题,其本质是由于链式法则的乘法特性导致的。比如之前神经网络中最流行的激活函数之一Sigmoid,其表达式如下:...原创 2018-06-29 15:45:26 · 26637 阅读 · 0 评论 -
谈谈自己对正则化的一些理解
上学的时候,就一直很好奇,模式识别理论中,常提到的正则化到底是干什么的?渐渐地,听到的多了,看到的多了,再加上平时做东西都会或多或少的接触,有了一些新的理解。1. 正则化的目的:防止过拟合!2. 正则化的本质:约束(限制)要优化的参数。关于第1点,过拟合指的是给定一堆数据,这堆数据带有噪声,利用模型去拟合这堆数据,可能会把噪声数据也给拟合了,这点很致命,一方面会造成模型比较复杂(想想看,本来一次函...转载 2018-06-29 19:49:59 · 595 阅读 · 0 评论 -
Batch Normalization
参考知乎博客 https://zhuanlan.zhihu.com/p/33173246 https://zhuanlan.zhihu.com/p/52749286 https://www.zhihu.com/question/38102762/answer/607815171 https://zhuanlan.zhihu.com/p/34879333 1 提出背景 https://z...原创 2019-06-11 20:41:21 · 1548 阅读 · 0 评论 -
优化算法介绍
优化器总结 https://zhuanlan.zhihu.com/p/22252270 SGD优化算法 此处的SGD指mini-batch gradient descent,关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不细说了。现在的SGD一般都指m...原创 2019-08-25 20:45:41 · 559 阅读 · 0 评论