2020年03月_sunkl_

03月

原创特征选择--信息增益（information gain）--spark实现和优化

【背景】首先我们先看一下，本期度词条对信息增益的广义定义：其实，我们主要用到信息增益，还是在特征选择上。个人理解信息增益就是目标列（y）整体信息熵和特征列每一个类别分组下对应目标列信息熵期望的差值，所有在命名时会用到增益。整体来看是y值的整体分布和y值在不同特征类型别下分布累加的差距。依此来衡量变量对目标（y）列的区分度，或者叫纯度。但是信息增益评价指标...

2020-03-26 17:20:28 2190 5

原创特征选择--信息熵（information entropy）--spark实现和优化

准备了很久，终于开始决定开始写关于机器学习相关的文章。深刻体会刚刚涉足一个新领域时的那种茫然和不知所措，而后在各个大神的文章帮助下渐渐走出了自己的一条路。现在想以分享设计方案的方式回馈技术社区和技术分享平台。虽然，这些不一定是最优的设计方案，希望这些技术方案对正在开发中正在迷惑的你有所帮助。【背景】在spark的架构中MLlib的工具库非常的全面，几...

2020-03-25 18:00:49 4300

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 特征选择--信息增益（information gain）--spark实现和优化

原创 特征选择--信息熵（information entropy）--spark实现和优化

空空如也

空空如也

原创特征选择--信息增益（information gain）--spark实现和优化

原创特征选择--信息熵（information entropy）--spark实现和优化