1.选择A
解析:根据公式可排除BCD,博主之前做的一题是有选项a(2)T*delta(3),这时候看delta=a(L)-y,行向量是样本数,应该不会把样本数消化掉,所以delta在前面。
2.选择A
解析:3*5=15,所以Theta2从16开始,加上24,后面是还原Theta2的形式4*6矩阵
3.选择A
解析:将J的函数带进梯度检测函数,theta和epxlon都有了带进去算就好。
4.选择AD
解析:A为了减少bug确保反向传播计算结果正确,要进行梯度检测,一定记住检测成功后要关掉梯度检