(1)关于 x (wrt)求微分得到的梯度要和
x 的维度严格保持一致。W1grad = zeros(size(W1)); b1grad = zeros(size(b1)); W2grad = zeros(size(W2)); b2grad = zeros(size(b2));
(2)行 * 列(得一矢量,表示内积),需要两者的长度相同;列 * 行,得一矩阵,不要求两者的长度相同。
(AB)’
Am×nBn×p
关于 A 求导 ⇒
B′
;
关于 B 求导 ⇒
A′
;
∥AX−B∥22
对
X
求导得:2A’(AX-B)
对
AS−X
能够出现
AS−X
的前提是,
AS
与
X
的维度一致;
矩阵 fro 范数的平方
矩阵(A) fro 范数的平方就是 tr(A’*A)。
>> A = magic(3);
>> norm(A, 'fro')^2
ans =
285.0000
>> sum(sum(A.*A))
ans =
285
>> trace(A'*A)
ans =
285