一、名词解释(8*3分)
语言模型
梯度确认
共现矩阵
分布式表示
困惑度
截断的BPTT
attention机制
超参数
二、简答题(6*8分)
1.训练数据、测试数据、验证数据的作用,为什么划分训练数据与测试数据
2.batch-normalization三个优点
3.神经网络的学习过程
4.word2vec的计算瓶颈和解决
5.dropout为什么可以降低过拟合
第6个不记得了
三、综合分析题
1.(13分)
(1)256*256的图像,全连接层有10个神经元,输出1000个神经元,忽略偏置,求参数个数(6分)
(2)卷积神经网络的三个特点(3分)
(3)梯度下降法为什么不总是好的的原因?列举另外三种参数更新的方法(4分)
2.(15分)
(1)画出LSTM的内部计算图(5分)
(2)写出三个门的作用(5分)
(3)RNNLM的三种改进方法(5分)