理论分析记录

问题

问题1

问题描述

两个随机变量相乘后是什么?

问题分析

在浙江大学概率论与数理统计第四版中:
在这里插入图片描述
假如X与Y相互独立,则f(x,y)直接可以转换为各自的概率密度相乘。

问题2

问题描述

神经网络的权重值w1,w2,w3…,wn。w1的取值是否影响w2的收敛值?

问题解答

若仅仅是多个线性变换相连接,则同一层无影响,不同层有影响。
若有非线性核作用于输出,则同一层属于同一个输出核的权重会互相影响。

问题3

问题描述

为什么relu、MISH这些激活函数其实本质上和线性变换百分之99的地方是一样的,但是从结果上来说却完全不一样?

问题解答

假如数据无法被平面区分开,那么激活函数是线性的必然无法解决这个问题。比如函数
f(x)=y若是线性函数,x是一个向量,那么其可以被表示成一个矩阵。因此一个三层网络f(f(f(x)))=y即可以被描述成A1A2A3*X=y,A1,A2,A3分别都是一个矩阵,他们相乘后又可以得到一个矩阵,因此三层网络仅仅就用一个线性变换即可以模拟,所以无论多少层网络都是无意义的。
而relu和MISH这些绝不是一个超平面。

问题4

问题描述

非随机梯度下降情况下,收敛的过程是怎样的,和随机梯度下降有什么不同?

问题解答

非随机梯度下降

一维情况很简单,画一条曲线,求梯度,然后向低的方向前进,直到到达谷底。
二维情况需要道具,一块卫生纸平方桌面,可能有很多峰,而且有高有低,能不能到最高的峰看起始位置和运气。

随机梯度下降

这个的复杂度远远大于非随机梯度下降,因为每次进来的不是所有数据,而是一个小batch。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值