熵 H( p ) 交叉熵 H(p,q) 相对熵KL散度 Dkl(p||q) p:目标概率分布 与 q:近似p的概率分布 的信息损失量化 三者关系 熵+相对熵=交叉熵 BP算法 反向传播中的随机梯度下降 详情见大佬链接,弱鸡学习完毕懒于重复整理 KL散度(相对熵). 三者关系. JS散度. 万一有人需要,看完不会你砍我(别真下手)(可能需要科学上网