矩阵乘法算子caffe实现

超级电冰箱

于 2022-06-05 01:39:09 发布

阅读量414

点赞数 1

分类专栏： caffe学习文章标签： caffe 矩阵深度学习

本文链接：https://blog.csdn.net/m0_43553709/article/details/125095636

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、公式推导
二、相关代码
总结

前言

我在onnx模型转caffe模型时发现，caffe缺少一些onnx的算子。比如矩阵乘法算子，caffe默认是通过InnerProductLayer来实现。但是，InnerProductLayer的实现方式为输入一个矩阵X，全连接层提供权重矩阵W（这个权重矩阵W我们不能输入，为算子内部自动提供的parameter blob），之后输出Y（Y = WX），这与我们希望的矩阵乘法的实现方式有所不同。我们所希望的矩阵乘法应该满足两个输入X与W，通过算子得到输出Y，与Y = np.multiply（X，W）相似。
总言而之，caffe默认的矩阵乘法算子InnerProductLayer与我们所需要的乘法算子不同。不点在于：

InnerProductLayer只能输入X，W自动提供，我们不能输入操作
我们希望的算子可以有两个输入X与W，与numpy的 np.multiply算子类似。

一、公式推导

假设损失函数（loss function）为 $\Iota$ : $R^{M×N}$ → R. 此损失函数的输入为 $\Zeta$ : $\in$ $R^{M×N}$ , $\Zeta$ = XY, 其中X与Y为矩阵乘法的输入，X $\in$ $R^{M×K}$ , Y $\in$ $R^{K×N}$ , $\Zeta$ 就自然对应为矩阵乘法的输出。当神经网络做向后传递时（backward propagation）, 损失函数的偏导数（partial derivatives）为 $l(Z)}\over{∂X}$ + $l(Z)}\over{∂Y}$ 。所以，我们只要能够求解 $l(Z)}\over{∂X}$ $\in$ $R^{M×K}$