机器学习中交叉熵和相对熵的关系
首先需要了解几个概念
自信息: 描述单个事件的不确定性
I ( x ) = − log [ p ( x ) ] \text { I }(x)=-\log [\boldsymbol{p}(\boldsymbol{x})] I (x)=−log[p(x)]
信息熵:描述整个事件的不确定性,事件越不确定,熵也就越大。即对自信息在事件上的概率分布求期望
H(P) = E x ∼ p [ I ( x ) ] = − ∑ i N P ( x i ) log P ( x i ) \text { H(P) }=\boldsymbol{E}_{\boldsymbol{x} \sim p}[\boldsymbol{I}(\boldsymbol{x})]=-\sum_{i}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{\boldsymbol{i}}\right) \log \boldsymbol{P}\left(\boldsymbol{x}_{\boldsymbol{i}}\right) H(P) =Ex∼p[I(x)]=−i∑NP(xi)logP(xi)
上图是对一个简单的二项分布求熵的结果,可以看到当probability=0.5时,信息熵的值最大等于0.69也就是最不确定。
交叉熵:描述两个分布有多接近
H ( P , Q ) = − ∑ i = 1 N P ( x i ) log Q ( x i ) \mathrm{H}(\boldsymbol{P}, \boldsymbol{Q})=-\sum_{i=1}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{i}\right) \log \boldsymbol{Q}\left(\boldsymbol{x}_{\boldsymbol{i}}\right) H(P