为什么信息熵要定义成-Σp(x)*log(p(x))?
E(-log(p(x)))是信息论里的entorpy,即信息熵。E(-log(p(x))) = -p(x)*logp((x))
p是概率,信息熵可以理解为是对“不确定性”的量度,而非对“确定性”的量度,熵大,信息量多,即不确定性很大。某件事概率越大,不确定性越小,所以熵是关于概率的单调递减函数(“信息熵”的百度百科)
Cross Entropy的快速的公式推导
https://www.bilibili.com/video/av9304348/?spm_id_from=333.788.videocard.2
讲解了交叉熵的公式推导,有具体数值例子带入公式。p是真实值,q是预测值,作用就是衡量pq之间的差异。
【 深度学习 】熵,交叉熵,KL散度 Entropy, Cross-Entropy and KL-Divergence(英文)
https://www.bilibili.com/video/av19193502?from=search&seid=17309553235362699585
这个视频是英文讲解,看到75%,25%那里你可能看不懂。但p log(p),p=75%(25%),来源于p=1/n,n即n种可能。
https://www.zhihu.com/question/30828247/answer/64816509
简单的交叉熵损失函数,你真的懂了吗?
https://zhuanlan.zhihu.com/p/38241764
loss=−(1−ε)log(e^{z1}/Z)−ε∑i=1n13log(ezi/Z),Z=ez1+ez2+ez3loss=−(1−ε)log(ez1/Z)−ε∑i=1n13log(ezi/Z),Z=ez1+ez2+ez3
loss=-log(e^{z1}/Z),Z = e^{z1}+e^{z2}+e^{z3}