面试背这个就行,下面内容是对这段话的详细解释
首先我们需要对最大熵原理中的熵进行理解,熵的公式为:
H
=
−
∑
P
(
x
)
l
o
g
P
(
x
)
H=-∑P(x)logP(x)
H=−∑P(x)logP(x)。
为什么要提出熵呢?熵可以对信息的不确定程度进行量化,从而方便我们解决更加复杂的问题。
而最大熵原理的意思,就是当满足(1)约束条件的情况下,(2)剩余情况等概率时,此时的熵是最大的。
详解
补充
再使用拉格朗日乘数法时,对于不能直接进行求导求解的问题,还可以使用其对偶问题,如同SVM算法中描述的一样,去进行求解,使用对偶问题仅是为了简化计算过程。
为最大熵模型量身定制的两个最优化方法分别是通用迭代尺度法(GIS)和改进的迭代尺度法(IIS)。
知道有这两个最优化方法即可,如需使用,再进行深入(估计以后都用不到)。