- 信息增益
熵: H ( X ) = − ∑ i = 1 k p i log p i H(X) = -\sum_{i=1}^k p_i\log p_i H(X)=−∑i=1kpilogpi
条件熵: H ( X ∣ Y ) = − ∑ j = 1 n p ( y j ) H ( X ∣ y j ) = − ∑ j = 1 n p ( y j ) ∑ i = 1 k p ( x i ∣ y j ) log p ( x i ∣ y j ) H(X|Y) =-\sum_{j=1}^n p(y_j)H(X|y_j) =-\sum_{j=1}^n p(y_j) \sum_{i=1}^k p(x_i|y_j)\log p(x_i|y_j) H(X∣Y)=−∑j=1np(yj)H(X∣yj)=−∑j=1np(yj)∑i=1kp(xi∣yj)logp(xi∣yj)
信息增益: g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A) = H(D) - H(D|A) g(D,A)=H(D)−H(D∣A)
信息增益代表利用特征A对数据集D分类后混乱程度降低了多少。信息增益越大,分类性越强。
但是,信息增益往往会偏向于选出取值较多的特征,但这些特征有可能是无意义的特征,例如用户ID、学号、日期等。如果选择取值较多的特征,会使决策树分支过多。 - 信息增益比
g R ( D , A ) = g ( D , A ) H A ( D ) g_R(D,A) = \frac{g(D,A)}{H_A(D)} gR(D,A)=HA(D)g(D,A)
H A ( D ) = − ∑ i = 1 n p i log p i H_A(D) =- \sum_{i=1}^np_i\log p_i HA(D)=−∑i=1npilogpi,其中 p i = P ( A特征取值为 a i ) p_i = P(\text{A特征取值为}a_i) pi=P(A特征取值为ai)
H A ( D ) H_A(D) HA(D)属于对信息增益的惩罚参数,特征A取值越多惩罚参数越大,取值越少惩罚参数越小;从而克服信息增益偏向于选取取值较多的特征的问题。
信息增益比和信息增益
最新推荐文章于 2024-08-20 14:43:09 发布