![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法基础
jiachen0212
这个作者很懒,什么都没留下…
展开
-
梯度下降、牛顿、拟牛顿法
参考博客:优化算法整理梯度下降法:当目标函数是凸函数时,梯度下降法的解是全局解。随机梯度下降法:随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了,对比上面的批量梯度BGD下降,迭代一次需要用到十几万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次。但是,SGD伴随的一个问题...原创 2018-04-25 16:23:02 · 396 阅读 · 0 评论 -
clip gradients 算法介绍
转载自:传送门1.梯度爆炸的影响在一个只有一个隐藏节点的网络中,损失函数和权值w偏置b构成error surface,其中有一堵墙,如下所示 损失函数每次迭代都是每次一小步,但是当遇到这堵墙时,在墙上的某点计算梯度,梯度会瞬间增大,指向某处不理想的位置。如果我们使用缩放,可以把误导控制在可接受范围内,如虚线箭头所示2.解决梯度爆炸问题的方法通常会使用一种叫”clip gradients “的方...转载 2018-05-11 19:20:47 · 6008 阅读 · 0 评论 -
《剑指offer》所有py版本代码
纯手撸,参考了很多网上的优秀答案。。算是二手整理吧,或许对像我一样的coding菜鸟有点小帮助~传送门:剑指offer_python_all原创 2018-05-24 21:30:21 · 847 阅读 · 0 评论 -
两个有序数组的第k大数
这道题百度上的答案真的是各种互抄,我自己写了版原创 2019-08-05 20:53:44 · 2031 阅读 · 0 评论