2016.3.28 其他的调整网络的技巧

最新推荐文章于 2019-06-16 19:29:22 发布

hello_pig1995

最新推荐文章于 2019-06-16 19:29:22 发布

阅读量515

点赞数

分类专栏：学业

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Zhaohui1995_Yang/article/details/51346703

版权

学业专栏收录该内容

67 篇文章 0 订阅

订阅专栏

其他的调整网络的技巧

技巧有很多，但是简单常用的不多。

首先说说对于随即梯度下降的不同变换，梯度下降其实就是用c来对于单独的一个w进行变换，但是我们如果考虑到对于不同的两个或者更多的w之间的关系呢？实际上就是用c对于多个w求多个偏导数。

Momentu就是二阶导数，原来的学习是使用c直接对于w进行修改，但是现在相当于多了一个屏障。原来走的每一步的步长实际上是和c直接相关的，但是通过momentum，加了一个代理，就是c调整一个中间的变量，中间变量再修改整体的w的值，所以再这样的情况下能够非常好的实现一个控制。

比如说我们想象一辆行驶的汽车，原来的w和c直接相关，可能一不小心就走多了，因为我们需要超像某个方向，方向是由c对w求偏导来决定的，走多少是学习率来决定的。但是这个带来的一个问题就是到底参数互相之间什么关系，要不要也微微调整以下。

其实这个也没太理解。

再有就是如何去最小化损失函数：

conjugate gradient descent ， BFGS ，或者nesterov’s accelerate gradient technique。

Sigmoid能不能换呢？其实tanh也许更好，因为对于sigmoid来说，激活的都是大于0的，这就意味着如果某个神经元是某个值，那么和这个相连的前一层的结果就都是同时增加或者减少的。而且tanh其实是sigmoid的一个缩放。还有一个比较神奇的东西就是relu（rectified linear unit）。

我们还没有明确的知道为什么这些是管用的，不过我们会继续探索。

下面问题来了：

1. 到底怎么解释这些，为什么激活函数这个就可以，有没有更好的？哪个是最好的？还是和数据有关？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

hello_pig1995 CSDN认证博客专家 CSDN认证企业博客

码龄10年

229: 原创

13万+: 周排名

192万+: 总排名

29万+: 访问

: 等级

4530: 积分

60: 粉丝

40: 获赞

15: 评论

77: 收藏

私信

关注

热门文章

分类专栏

数学 11篇
学业 67篇
leetcode 30篇
软件安装 2篇
python 8篇
LDA 18篇
机器学习 58篇
link to 4篇
课内课程随笔 11篇
论文阅读 3篇
计算机视觉 16篇
ACM 13篇
nlp 1篇
NN-DL 18篇
UFLDL 19篇
玩耍 1篇

最新评论

对于群的理解
10240024: 居然可以这么理解！
matplot设置xy轴范围
qq_41580719: 光给个xlim函数也不说用法,里面两个参数也不说是什么，玩文字游戏
《LDA漫游指南》数学基础阅读笔记
料理码王: 说实话，从贝塔分布开始我就看懵我了。。。。。。。。
直观解释Gamma分布和Poisson分布
weixin_39888879: 有个小问题 gamma(shape, scale=1.0, size=None) scalar=1的时候，shape就是期望
《LDA漫游指南》数学基础阅读笔记
猪宝宝啊啊大大: 《LDA漫游指南》的最清晰的排版的pdf版，我找到了，这是官方正版，而且现在免费下载了，在这里https://arxiv.org/abs/1908.03142 下载

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。