机器学习门槛之矩阵求导(四) 对常见的矩阵求导公式进行了证明,但是可以看出每次求导都去查矩阵求导公式市比较繁琐的,推荐这个简书上的矩阵求导总结,是我见到的最容易理解的矩阵求导资料。
机器学习中的矩阵、向量求导www.jianshu.com接下来进行逻辑斯蒂回归的求导:
逻辑斯蒂回归矩阵求导
注意:
输入数据:
,即输入数据是一个n行d列的矩阵。第i行
是第i个输入数据(行向量),其特征维度是d维,
是输入的列向量形式。注意我这里矩阵X的每一行是一个数据输入,不是列。由于默认向量为列向量,所以用
转置表示行向量。
数据的lable:
是一个n维的列向量,
是第i个输入数据的label。
参数:
是一个d维的列向量,偏置参数b(是一个数)。
模型输出:
是一个n维的列向量,
是第i个输入数据的输出。
输入和输出的矩阵形式关系:
,其中
是n个b组成的列向量,是数值b的广播;
,其中
是sigmoid激活函数;
即输入和输出的关系:
。
逻辑斯蒂回归采用二分类的交叉熵损失函数:
loss的矩阵形式:
注意:
,写成矩阵形式
步入正题,矩阵求导:
机器学习就是参数估计,需要求出
和
的导数,采用梯度下降法进行求导:
,
输入:
,参数
;
label:
;
输出:
,
前向传播:
损失函数:
矩阵求导的反向传播 :
(第一步)
则:
注意:这里的实数对向量求导采用分母布局!!!
(第二步)
则:
,
是对应位置相乘,此式对任意激活函数都成立
即:
化简可得:
(第三步)
因为:
所以:
,根据维度相容原则进行调整得到
(第四步)
因为:
所以:
。
总结:
逻辑斯蒂回归模型
输入:
,参数
;
label:
;
输出:
,
前向传播:
损失函数:
逻辑斯蒂回归的反向求导:
,
。
-