原文:http://blog.csdn.net/longxinchen_ml/article/details/50471682
特征有效性分析中:
女婿只在高富帅中选出的条件熵: 5/100 * (1/5 * log5 + 4/5 * log(5/4)) = 0.0361
则信息增益为:0.08079 - 0.0361 = 0.0447
(熵越大表现出越大的不确定性。那么条件熵越大,则在该条件下的不确定性就越大,信息增益相对就越小。因此信息增益越小,则该条件的相关性越低)
这个信息增益是我们在假设女婿全在高富帅中选取的情况,但如果我们实际将高富帅作为选取选女婿的条件时,发现信息增益只有0.0123,因此得到是否是高富帅这个条件与是否为女婿的相关性是很低的。