目录
5.卷积操作的本质特性包括稀疏交互和参数共享,具体解释这两种特性以其作用?
10.长短期记忆网络LSTM各模块都使用什么激活函数,可以使用其他激活函数么?
13.注意力机制是什么?Seq2Seq模型引入注意力机制主要解决什么问题?
14.RNN的长期依赖(Long-Term Dependencies)问题是什么?怎么解决
18.Kmeans有哪些优缺点?是否有了解过改进的模型,举例说明?
19.**兰德指数**(RI, *Rand Index*)能度量聚类过程中的假阳性和假阴性结果的惩罚
22.在训练过程中哪些参数对模型效果影响比较大?这些参数造成影响是什么?
1.梯度消失和梯度膨胀的原因是什么?
(1)深度学习的网络层数太多,在进行反向传播时根据链式法则,要连乘每一层梯度值
(2)每一层的梯度值是由,非线性函数的导数以及本层的权重相乘得到的,这样非线性的导数的大小和初始化权重的大小会直接影响是否发生梯度弥散或者梯度爆炸
注:任何网络都有可能发生梯度弥散或者梯度爆炸,这是深度学习的基本性质决定的,无法避免。
2.简述CNN的工作原理?
CNN利用了图像的三个性质:
(1)图像的pattern通常比整张图