em算法详细例子及推导_反向传播算法推导过程(非常详细)

fdf9ab8e6a93cd87c006e579c0574ed0.png

1. 前向传播

46fd6c4fe15c77a3f2fdf1a613195547.png

假设

的矩阵(其中,
为样本个数(batch size),
为特征维数):

的维数为
的矩阵,

的维数为
的矩阵,

的维数为
的矩阵,

前向算法:

假设输出为

维,则
为大小为
的矩阵,根据MSE或CE准则可以求得
,对于回归问题与分类问题,
的求解方法如下:

8a89425018b5b51d2342ea98734697cb.png
  • 对于回归问题,对out直接计算损失,损失函数为MSE。 损失:

  • 对于分类问题,out后接softmax进行分类,然后使用CE(cross entropy)计算loss.
    一个样本对应的网络的输出
    是一个概率分布,而这个样本的标注
    一般为
    ,也可以看做一个概率分布(硬分布)。cross entropy可以看成是
    之间的KL距离:

  • 假设
    ,其中1为第
    个元素(索引从0开始),令
    .

损失:

KL距离(相对熵):是Kullback-Leibler Divergence的简称,也叫相对熵(Relative Entropy).它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布 P(x) 对应的每个事件,若用概率分布 Q(x) 编码时,平均每个基本事件(符号)编码长度增加了多少比特。我们用
表示KL距离,计算公式如下:
,当两个概率分布完全相同时,即 P(X)=Q(X) ,其相对熵为0.

2.反向传播

,为了便于详细说明反向传播算法,假设
的向量,
的向量:

所以,

1) 损失

的导数:

即,

2) 损失对偏置b的导数等于将

的每一列加起来:

3) 损失

的导数:

即,

4) 损失

的导数:

  • 为sigmoid时,

  • 为tanh时,
    .

  • 为relu时,

3. 梯度更新

对于不同算法 ,梯度更新方式如下:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
最大期望算法(Expectation-Maximization,简称EM算法)是一种求解含有隐变量(latent variable)的概率模型参数的方法,通常应用于无监督学习任务中。它的基本思想是通过观测数据推断潜在变量的分布,然后根据这个分布去最大化数据的似然函数,从而得到最优的模型参数。 下面是EM算法的目标函数推导和求解过程: 1. 目标函数推导 假设我们有一组观测数据 X = {x1, x2, ..., xn},其中每个观测数据都由一个概率模型生成,但我们并不知道这个模型的参数 θ。我们设计一个隐变量 Z = {z1, z2, ..., zn},表示每个观测数据对应的模型参数。具体地,我们假设每个观测数据 x 的生成过程如下: - 首先从先验分布 p(z) 中随机抽取一个隐变量 z。 - 然后根据条件分布 p(x|z,θ) 生成观测数据 x。 我们的目标是找到最优的参数 θ,使得给定观测数据 X,其似然函数 p(X|θ) 最大。由于观测数据中存在隐变量,我们无法直接对似然函数求解。因此,我们采用EM算法来求解。 EM算法的基本思想是:首先根据当前参数 θ 的值,计算隐变量 Z 的期望分布 q(Z),然后在该分布下最大化完整数据的对数似然函数,得到新的参数值 θ'。重复执行这个过程,直到收敛为止。 具体地,我们定义一个辅助函数 Q(θ,θ'),表示在当前参数 θ 的情况下,隐变量 Z 的期望对数似然值。即: Q(θ,θ') = E[log p(X,Z|θ)]|X,θ' 其中 E[·] 表示对隐变量 Z 取期望,期望的计算方式为: E[log p(X,Z|θ)]|X,θ' = Σ p(Z|X,θ') log p(X,Z|θ) 其中 Σ 表示对所有可能的隐变量取和,p(Z|X,θ') 表示在给定观测数据 X 和当前参数 θ' 的情况下,隐变量 Z 的后验概率分布。 我们可以将 Q(θ,θ') 写成如下形式: Q(θ,θ') = Σ p(Z|X,θ') log [p(X,Z|θ) / p(Z|X,θ')] 根据贝叶斯公式,我们有: p(X,Z|θ) = p(Z|X,θ) p(X|Z,θ) 将其代入 Q(θ,θ'),我们可以得到: Q(θ,θ') = Σ p(Z|X,θ') [log p(X|Z,θ) + log p(Z|X,θ') - log p(Z|X,θ')] 化简后,我们可以得到: Q(θ,θ') = Σ p(Z|X,θ') log p(X|Z,θ) + H(p(Z|X,θ')) 其中 H(p(Z|X,θ')) 表示隐变量 Z 的后验分布的熵,是一个常数。 我们的目标是最大化辅助函数 Q(θ,θ'),即: θ' = argmax Q(θ,θ') 2. 目标函数求解 我们采用迭代算法来求解最大化辅助函数 Q(θ,θ') 的参数 θ'。具体地,我们先随机初始化参数 θ0,然后执行如下迭代过程: E步:计算隐变量 Z 的后验分布 p(Z|X,θk),即: p(Z|X,θk) = p(X,Z|θk) / p(X|θk) M步:最大化辅助函数 Q(θ,θ'),求解新的参数 θk+1,即: θk+1 = argmax Q(θ,θk) 对于 M 步的最大化过程,可以采用梯度上升等优化算法进行求解。 重复执行 E 步和 M 步,直到参数收敛为止。最终得到的参数即为最优参数 θ*,使得观测数据的似然函数 p(X|θ*) 最大。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值