特征选择--信息增益(information gain)--spark实现和优化
【背景】
首先我们先看一下,本期度词条对信息增益的广义定义:
其实,我们主要用到信息增益,还是在特征选择上。个人理解信息增益就是目标列(y)整体信息熵和特征列每一个类别分组下对应目标列信息熵期望的差值,所有在命名时会用到增益。整体来看是y值的整体分布和y值在不同特征类型别下分布累加的差距。依此来衡量变量对目标(y)列的区分度,或者叫纯度。但是信息增益评价指标...
原创
2020-03-26 17:20:28 ·
2167 阅读 ·
5 评论