21、 [单选] BatchNorm 层对于 input batch 会统计出 mean 和 variance 用于计算 EMA。如果 input batch 的 shape 为(B,C,H,W),统计出的 mean 和 variance的 shape 为:()
• A:B*1*1*1
• B:1*C*1*1
• C:B*C*1*1
• D:1*1*1*1
正确答案:B
解析:答案解析:BatchNorm 层对于 input batch 会统计出每个 channel 的 mean 和
variance,因此统计出的 mean 和 variance 的 shape 为 1*C*1*1,即选项 B。
22、 [单选] 已经为所有隐藏单元使用 tanh 激活建立了一个网络。使用np.random.randn(..,..)*1000 将权重初始化为相对较大的值。会发生什么?
• A:这没关系。只要随机初始化权重,梯度下降不受权重大小的影响。
• B:这将导致 tanh 的输入也非常大,因此导致梯度也变大。因此,您必须将 ex 设置得非常小以防止发散;这会减慢学习速度。
• C:这会导致 tanh 的输入也非常大,导致单位被“高度激活”&