python决策树 value_利用pandas创建决策树模型

本文深入介绍了监督学习中的决策树模型,通过一个具有2w+星的GitHub项目apachecn/AiLearning进行学习并实践。文章提供了决策树构建的伪代码及Python实现过程,包括如何计算信息增益来选取最优特征等。
摘要由CSDN通过智能技术生成

f427350beb7971e59ae57074a20d3343.png

今天深入学习了机器学习算法中,属于监督学习的决策树模型,我是在github上2w+星的项目学习的:apachecn/AiLearning,在此强烈推荐给新手!

作者的算法基本依靠Python的基础语法完成,比如数据集是以二维列表的形式展示的,利用基础语法对其进行操作,会比较繁琐。联想到利用pandas应该能使代码更简洁,便自己动手实操了一番:

先给出伪代码:

对于一个拥有分类结果的训练数据集:
    如果结果列只有一种分类,则返回此分类;
    如果数据集只有1列,则返回出现次数最多的分类;
    否则要选择最优特征列,创建决策树;
对于每一个特征列:
    计算每一个特征值的信息熵和概率
    计算这一特征列的期望信息熵(每一个特征值的信息熵和概率相乘后求和)
    计算特征列的信息增益(基础信息熵-期望信息熵)
    比较每一个特征的信息增益,返回最大信息增益的特征
根据最优特征划分数据集,并剔除第一次选择的最优特征
对于剩余的特征:
    递归调用函数,直到返回最终分类结果

实际代码:

#!/usr/bin/python
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值