根据最优特征进行分类并创建决策树

最新推荐文章于 2023-02-12 21:00:43 发布

python墙头草

最新推荐文章于 2023-02-12 21:00:43 发布

阅读量681

点赞数

文章标签：决策树 python 算法

本文链接：https://blog.csdn.net/qq_56297666/article/details/124684190

版权

该博客探讨了如何在数据分类中避免人为指定特征，转而使用信息熵来自动选择最优特征。通过导入相关库，创建示例数据，定义辅助函数计算信息熵和选择最优特征值，最终构建决策树。示例展示了不同输入条件下的决策树输出，强调了结果的多样性和不依赖现实情况的正确性。

摘要由CSDN通过智能技术生成

当你获得一组数据

  头发  声音  性别
[['长', '粗', '男'],
 ['短', '粗', '男'],
 ['短', '粗', '男'],
 ['长', '细', '女'],
 ['短', '细', '女'],
 ['短', '粗', '女'],
 ['长', '粗', '女'],
 ['长', '粗', '女']]

该如何对它按照特征进行分类

当然，最简单的，可以利用groupby进行分组

import pandas as pd
dataset = [['长', '粗', '男'],
           ['短', '粗', '男'],
           ['短', '粗', '男'],
           ['长', '细', '女'],
           ['短', '细', '女'],
           ['短', '粗', '女'],
           ['长', '粗', '女'],
           ['长', '粗', '女']]
hair_list = []
voice_list = []
sex_list = []
for i in range(len(dataset)):
    hair_list.append(dataset[i][0])
    voice_list.append(dataset[i][1])
    sex_list.append(dataset[i][2])
data = pd.DataFrame({
    "hair": hair_list,
    "voice": voice_list,
    "sex": sex_list
})
group = data.groupby("sex")   # 按照sex进行分类
for i in list(group):         # 如果不追求美观的话此处循环也可用print(list(group))代替
    print(i)
    if i == ")":
        print("\n")

可以得到这样的输出结果