em算法详细例子及推导_反向传播算法推导过程（非常详细）

最新推荐文章于 2024-07-24 12:00:37 发布

weixin_39763902

最新推荐文章于 2024-07-24 12:00:37 发布

阅读量275

点赞数

文章标签： em算法详细例子及推导

1. 前向传播

假设

为

的矩阵（其中，

为样本个数（batch size），

为特征维数）:

与

的维数为

为

的矩阵，

与

的维数为

为

的矩阵，

与

的维数为

为

的矩阵，

前向算法：

假设输出为

维，则

为大小为

的矩阵，根据MSE或CE准则可以求得

，对于回归问题与分类问题，

的求解方法如下：

对于回归问题，对out直接计算损失，损失函数为MSE。损失：

对于分类问题，out后接softmax进行分类，然后使用CE(cross entropy)计算loss.
一个样本对应的网络的输出

是一个概率分布，而这个样本的标注

一般为

，也可以看做一个概率分布（硬分布）。cross entropy可以看成是

与

之间的KL距离：

假设
，其中1为第

个元素(索引从0开始)，令

.

损失：

KL距离（相对熵）：是Kullback-Leibler Divergence的简称，也叫相对熵(Relative Entropy).它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是：在相同事件空间里，概率分布 P(x) 对应的每个事件，若用概率分布 Q(x) 编码时，平均每个基本事件(符号)编码长度增加了多少比特。我们用
表示KL距离，计算公式如下：

，当两个概率分布完全相同时，即 P(X)=Q(X) ,其相对熵为0.

2.反向传播

，为了便于详细说明反向传播算法，假设

为

的向量，

为

的向量：

所以，

1) 损失

对

的导数：

即，

2) 损失对偏置b的导数等于将

的每一列加起来：

3) 损失

对

的导数：

即，

4) 损失

对

的导数：

为sigmoid时，

为tanh时，

.

为relu时，

3. 梯度更新

对于不同算法，梯度更新方式如下：

weixin_39763902

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。