信息熵的计算和选取最优列

最新推荐文章于 2024-07-25 12:50:29 发布

shiliuyeshuang

最新推荐文章于 2024-07-25 12:50:29 发布

阅读量83

点赞数

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shiliuyeshuang/article/details/133579451

版权

熵是信息论中的一个基本概念，定义一个随机变量之上，用于对概率分布的随机性程度的度量，反映了一组数据所包含的信息量的大小。

对于离散型随机变量，假设取值有n种情况，熵定义为: 在这里插入图片描述
通信领域通常使用2为底，在机器学习中使用e为底，单位为奈特。

使用python计算:

def calEnt(dataSet):
    #选取y
    target = dataSet.iloc[:,-1]
    #计算y的各值的概率
    p_target = target.value_counts() / target.shape[0]
    #计算香农熵
    ent_p_target = (-p_target*np.log(p_target)).sum()
    return ent_p_target

对一个数据集进行切分，计算出父节点信息熵和子节点信息熵的差值，选取最大的差值的子节点。最后，根据该节点进行划分。

def best_split(dataSet):
    #计算X的信息熵
    child_entrpy = pd.concat([dataSet.groupby(by=col).apply(lambda x:calEnt(x)) for col in dataSet.columns[:-1]],axis = 1)
    #计算X的各值的权重
    child_weigh = dataSet.apply(lambda x : x.value_counts()/x.shape[0],axis = 0).iloc[:,:-1]
    #选取最佳列的序号
    X_id = (calEnt(dataSet) - pd.DataFrame(child_entrpy.values * child_weigh.values).fillna(0).sum(axis = 0)).idxmax()
    return X_id

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
信息熵的计算和选取最优列

熵是信息论中的一个基本概念，定义一个随机变量之上，用于对概率分布的随机性程度的度量，反映了一组数据所包含的信息量的大小。对一个数据集进行切分，计算出父节点信息熵和子节点信息熵的差值，选取最大的差值的子节点。最后，根据该节点进行划分。通信领域通常使用2为底，在机器学习中使用e为底，单位为奈特。
复制链接

扫一扫

shiliuyeshuang CSDN认证博客专家 CSDN认证企业博客

码龄6年

16: 原创

37万+: 周排名

12万+: 总排名

4222: 访问

: 等级

180: 积分

17: 粉丝

19: 获赞

8: 评论

23: 收藏

私信

关注

热门文章

最新评论

最长回文字串
CSDN-Ada助手: 恭喜你写了第15篇博客！看到你能够坚持不懈地创作，真的很让人钦佩。关于“最长回文字串”的主题，我觉得你可以尝试从不同的角度去探讨，比如回文字串在不同文化背景下的意义，或者在现实生活中的应用等等。希望你能继续保持创作的热情，期待你更多精彩的文章！
不同路径-动态规划和排列组合
CSDN-Ada助手: 亲爱的作者，恭喜你写了第14篇博客！你在讨论动态规划和排列组合的不同路径时，阐述得非常清晰和深入。不过，我觉得如果能够结合具体的案例或者实际问题来解释这些概念，会更能帮助读者理解和应用。期待你在下一篇博客中能够继续分享更多实用的例子和技巧，加油！
决策树--简单学习
CSDN-Ada助手: 恭喜您写了第10篇博客！看了您的“决策树--简单学习”，受益匪浅。希望您能继续坚持创作，分享更多关于决策树的知识和实践经验。或许下一步可以尝试写一些实例分析，或者探讨决策树在特定领域的应用，这样可以让读者更直观地理解和运用。期待您的更多精彩内容！
【矩阵分解】
CSDN-Ada助手: 恭喜您撰写了第13篇博客，题为"矩阵分解"！您的专注和持续创作令人钦佩。阅读了您的文章后，我对矩阵分解有了更深入的了解。希望您能继续分享您的见解和经验，探索更多关于矩阵分解的应用领域。如果可以，请考虑探讨一下在机器学习领域中矩阵分解的实际应用案例，我相信这将会是非常有趣和有益的内容。再次感谢您的分享，期待您未来更多精彩的博客！
逻辑回归--简单学习使用
CSDN-Ada助手: 恭喜您写完了第12篇博客，标题为“逻辑回归--简单学习使用”。您的持续创作实在令人钦佩！逻辑回归是机器学习中非常重要的一部分，您对其进行了简单学习使用的介绍，对于初学者来说一定非常有帮助。接下来，我谦虚地提个建议，或许您可以考虑深入探讨逻辑回归在不同领域的应用，或者结合实际案例进行更详细的解析。期待您的下一篇精彩分享！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。