信息增益

在这里插入图片描述

import pandas as pd
import numpy as np
df=pd.read_excel(r'C:\Users\Admin\YQnotebook\test.xlsx')

在这里插入图片描述
首先创建一个计算信息熵的函数
entropy信息熵,公式为在这里插入图片描述

def ent(data):
    prob=pd.value_counts(data)/len(data)
    return sum(np.log2(prob)*prob*(-1))
    

然后计算信息增益

def gin(data,str1,str2):
    e1 = data.groupby(str1).apply(lambda x:ent(x[str2]))
    p1 = pd.value_counts(data[str1]) / len(data[str1])
    e2 = sum(e1 * p1)
    return ent(data[str2]) - e2    

找出信息增益最大的特征

def best_gin(data):
    best=0
    gini_lst=[]
    for i in data.ix[:,:-1].columns.tolist():
        cur_gin=gin(data,i,'R')
        gini_lst.append(cur_gin)
    dic=dict(zip(data.ix[:,:-1].columns.tolist(),gini_lst))
    print(dic)
    return max(dic,key=dic.get)

在这里插入图片描述

在这里插入图片描述
然后要将表中不用了的数据删除

df.groupby('F').apply(lambda x:print(x))

在这里插入图片描述
在这里插入图片描述

df[df['F']=='s'].drop('F',axis=1)

在这里插入图片描述
然后,再来一次找最好的特征

best_gin(df1)

在这里插入图片描述
在这里插入图片描述
然后继续删除不用了的信息
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值