读书笔记：Deep Learning [Ada-Computation&ML series]--chapter4.Numerical Computation

最新推荐文章于 2019-04-05 10:51:32 发布

John2King

最新推荐文章于 2019-04-05 10:51:32 发布

阅读量489

点赞数

分类专栏： DL 文章标签：凸优化牛顿法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lebula/article/details/53401947

版权

DL 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

part1.overflow and underflow

1.underflow：接近0的数被约等于0，overflow:很大的数被约等于正无穷或者负无穷

2.在softmax很常见

softmax(x)i = exp(xi)/sum (exp(xj))

假设所有的xi都等于一个常数c，如果c为很大的负数，exp(c)会underflow,使得上述分母为0.

如果c为很大的整数，exp(c)会overflow。

3.解决办法就是对于softmax(z),使得z = x - maxi xi,这样最大的数会变成exp^0

part2.Poor Conditioning

对于f(x) = A-1X，A可以做特征值分解，那么condition number定义为：max i,j | lamda i / lamda j |

也就是最大与最小特征值之比，如果这个数太大，说明矩阵的逆对于输入中小的扰动很敏感。

part3.Jacobian,Hessian Matrices

1.Jacobian：输入输出都是向量的函数的所有偏导数

2.Hessian:对jacobian再求导，相当于是二阶导

3.可以利用hessian来判断是否是局部最小，但仅对于正定或者负定矩阵有效。

4.利用梯度下降很难找到合适的step size以防止overshooting,因次考虑利用二阶梯度信息的牛顿法

5.牛顿法：如果f是正定的，那么一步可以得到解，如果是半正定的，迭代多步。但是牛顿法只适用于附近的关键点是最小点的情况(鞍点不work)

6.凸优化比较好：hessian是半正定的，没有鞍点，局部最优就是全局最优。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
读书笔记：Deep Learning [Ada-Computation&ML series]--chapter4.Numerical Computation

part1.overflow and underflow1.underflow：接近0的数被约等于0，overflow:很大的数被约等于正无穷或者负无穷2.在softmax很常见softmax(x)i = exp(xi)/sum (exp(xj))假设所有的xi都等于一个常数c，如果c为很大的负数，exp(c)会underflow,使得上述分母为0.如果c为很大的整数，exp(
复制链接

扫一扫

专栏目录

John2King CSDN认证博客专家 CSDN认证企业博客

码龄12年

44: 原创

26万+: 周排名

153万+: 总排名

6万+: 访问

: 等级

1007: 积分

11: 粉丝

11: 获赞

5: 评论

13: 收藏

私信

关注

热门文章

分类专栏

CV 10篇
C++ 16篇
DL 15篇
Draft 1篇
Torch 2篇
Math 1篇

最新评论

论文笔记：Efficient and Accurate Approximations of Nonlinear Convolutional Networks
笨鸟不走: y = M (y - ybar) + ybar这个公式咋理解，数学上讲不通哩，y是一个vector，ybar是y的mean?一个vector咋会有mean vector?
[论文笔记3]Aggregated channel features
前端小飞侠: 写的什么？无语
Torch-nn学习：Tabel Layer
xtanitfyzshao: 你好，我想问下mlp = nn.SplitTable(1, 2)中的2是什么意思？这个地方一直不明白，1不是在第一个维度上进行split吗？
论文笔记：Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks
指尖de烟火: 你好，一直没有理解Markovian patches GAN.是怎么做的，能不能详细的阐述一下。谢谢
论文笔记：SqueezeNet
顺其&&自然: 主你好，请问一下，我怎么把其他网络模型用Squeezenet进行压缩呢？比如想用Squeezenet对VGG的网络进行压缩，是用Github上面提供的SqueezeNet-Generator-master来进行压缩吗？如果是的话该怎么修改里面的代码呢？谢谢

最新文章

目录

目录

分类专栏

CV 10篇
C++ 16篇
DL 15篇
Draft 1篇
Torch 2篇
Math 1篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。