问题
问题1
问题描述
两个随机变量相乘后是什么?
问题分析
在浙江大学概率论与数理统计第四版中:
假如X与Y相互独立,则f(x,y)直接可以转换为各自的概率密度相乘。
问题2
问题描述
神经网络的权重值w1,w2,w3…,wn。w1的取值是否影响w2的收敛值?
问题解答
若仅仅是多个线性变换相连接,则同一层无影响,不同层有影响。
若有非线性核作用于输出,则同一层属于同一个输出核的权重会互相影响。
问题3
问题描述
为什么relu、MISH这些激活函数其实本质上和线性变换百分之99的地方是一样的,但是从结果上来说却完全不一样?
问题解答
假如数据无法被平面区分开,那么激活函数是线性的必然无法解决这个问题。比如函数
f(x)=y若是线性函数,x是一个向量,那么其可以被表示成一个矩阵。因此一个三层网络f(f(f(x)))=y即可以被描述成A1A2A3*X=y,A1,A2,A3分别都是一个矩阵,他们相乘后又可以得到一个矩阵,因此三层网络仅仅就用一个线性变换即可以模拟,所以无论多少层网络都是无意义的。
而relu和MISH这些绝不是一个超平面。
问题4
问题描述
非随机梯度下降情况下,收敛的过程是怎样的,和随机梯度下降有什么不同?
问题解答
非随机梯度下降
一维情况很简单,画一条曲线,求梯度,然后向低的方向前进,直到到达谷底。
二维情况需要道具,一块卫生纸平方桌面,可能有很多峰,而且有高有低,能不能到最高的峰看起始位置和运气。
随机梯度下降
这个的复杂度远远大于非随机梯度下降,因为每次进来的不是所有数据,而是一个小batch。