![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习笔记
lizhaohu01
这个作者很懒,什么都没留下…
展开
-
如何通俗地解释泰勒公式?
如何通俗地解释泰勒公式? - 知乎 https://www.zhihu.com/question/21149770/answer/464443944简单明了,通俗易懂。感谢贡献转载 2021-05-20 11:19:15 · 428 阅读 · 0 评论 -
深度学习自适应
原创 2020-10-27 10:13:52 · 1501 阅读 · 0 评论 -
几种网络压缩加速方法记录
原创 2020-10-21 10:15:35 · 276 阅读 · 0 评论 -
SVD在神经网络中的常用应用以及原理
SVD回顾 SVD常用矩阵分解:A(m*n) = U(m*n)A(n*m)V(m*n), 在PCA中可以看到,SVD做矩阵压缩,假设压缩至K纬,只需要保留特征值最大的top即可, 那么有:A(m*n) ~ U(m*k)A(k*k)V(k*n) = U(m*k)V(k*n) 应用: 总结:可以看出模型的参数大大压缩而且效果基本上一样。训练过程注意事项: 由于变换后的网络模型深度增加了,因此不要在变...原创 2020-07-29 10:42:34 · 1302 阅读 · 0 评论 -
层数比较深的网络训练技巧
监督性区分性分层训练 遇见的 问题: 假如训练20层的网络,直接堆积网络,由于网络过于深入,每一层都会有误差(并且是小于1的值),这样可能会在回传的时候会导致梯度消失(连续累✖️越来越小),无法收敛,那么是如何训练的呢(很多情况都是由于初始数值不好导致)。 解决方法:1. 进行分层训练,首先先抽7层隐层,然后后边直接接入一个到输出层的线性变换,先用部分数据训练这样的7层网络结构。 ...原创 2020-07-29 10:13:37 · 770 阅读 · 0 评论