特征选择--信息熵（information entropy）--spark实现和优化

最新推荐文章于 2023-03-01 08:50:50 发布

sunkl_

最新推荐文章于 2023-03-01 08:50:50 发布

阅读量4.3k

点赞数

分类专栏：机器学习特征筛选

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010990043/article/details/105096680

版权

准备了很久，终于开始决定开始写关于机器学习相关的文章。深刻体会刚刚涉足一个新领域时的那种茫然和不知所措，而后在各个大神的文章帮助下渐渐走出了自己的一条路。现在想以分享设计方案的方式回馈技术社区和技术分享平台。虽然，这些不一定是最优的设计方案，希望这些技术方案对正在开发中正在迷惑的你有所帮助。

【背景】

在spark的架构中MLlib的工具库非常的全面，几乎包含大部分的机器学习的算法和场景。但是有些组件包却没有实现或者实现了没有暴露出来，在这些场景下用户就不得不自己实现相关的工程包的封装。最近一段时间，将会逐步分享一系列的机器算法的spark工程实现，其中包含IV值计算和分箱计算。

【概念准备】

今天打算分享的主题是信息熵（information gain），我们先来看一下百度词条对于信息熵的定义和设计背景。信息熵，是一个数学上颇为抽象的概念，在这里不妨把信息熵理解成某种特定信息的出现概率。信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。

【计算公式】

$H(D)=-\sum_{k=1}^{K}p_{i}\log_{2}p_{i}$

【sp

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。