理论分析记录

qq_30362711

已于 2022-04-24 13:29:10 修改

阅读量387

点赞数

分类专栏：神经网络技术数学理论文章标签：深度学习

于 2020-07-13 16:25:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30362711/article/details/107319640

版权

神经网络技术同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

问题

问题1

问题描述

两个随机变量相乘后是什么？

问题分析

在浙江大学概率论与数理统计第四版中：
在这里插入图片描述
假如X与Y相互独立，则f(x,y)直接可以转换为各自的概率密度相乘。

问题2

问题描述

神经网络的权重值w1,w2,w3…,wn。w1的取值是否影响w2的收敛值？

问题解答

若仅仅是多个线性变换相连接，则同一层无影响，不同层有影响。
若有非线性核作用于输出，则同一层属于同一个输出核的权重会互相影响。

问题3

问题描述

为什么relu、MISH这些激活函数其实本质上和线性变换百分之99的地方是一样的，但是从结果上来说却完全不一样？

问题解答

假如数据无法被平面区分开，那么激活函数是线性的必然无法解决这个问题。比如函数
f(x)=y若是线性函数，x是一个向量，那么其可以被表示成一个矩阵。因此一个三层网络f(f(f(x)))=y即可以被描述成A1A2A3*X=y,A1,A2,A3分别都是一个矩阵，他们相乘后又可以得到一个矩阵，因此三层网络仅仅就用一个线性变换即可以模拟，所以无论多少层网络都是无意义的。
而relu和MISH这些绝不是一个超平面。

问题4

问题描述

非随机梯度下降情况下，收敛的过程是怎样的，和随机梯度下降有什么不同？

问题解答

非随机梯度下降

一维情况很简单，画一条曲线，求梯度，然后向低的方向前进，直到到达谷底。
二维情况需要道具，一块卫生纸平方桌面，可能有很多峰，而且有高有低，能不能到最高的峰看起始位置和运气。

随机梯度下降

这个的复杂度远远大于非随机梯度下降，因为每次进来的不是所有数据，而是一个小batch。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。