决策树缺失值处理

本文探讨了决策树在处理缺失值时的方法。对于训练数据,可以将样本分为三部分计算信息增益;预测数据中,C4.5算法会根据缺失值计算类别概率。在面对测试样本属性缺失值时,论文提出了相应处理方式。并给出了一个电影数据的决策树应用案例。
摘要由CSDN通过智能技术生成

决策树

1.决策树缺失值处理

1.1对于训练模型,训练数据部分样本的部分特征值缺失的情况下,做法是:把该数据按比例分成三份数据。可以算出该特征的信息增益。
1.2对于预测数据,C4.5中采用的方法是:测试样本在该属性值上有缺失值,那么就同时探查(计算)所有分支,然后算每个类别的概率,取概率最大的类别赋值给该样本。
1.3测试样本属性也有缺失值那要怎么办?
有论文里讨论过:
在这里插入图片描述

2.决策树应用的案例:

import csv
from sklearn.feature_extraction import DictVectorizer
from sklearn import preprocessing
from sklearn import tree

film_data = open('film.csv', 'rt')
reader = csv.reader(film_data)
# 表头信息
headers = next(reader)
#print(headers)

feature_list = []
result_list = []

for row in reader:
    result_list.append(row[-1])#row[-1]是求这行的最后一个元素
    # 去掉首位两列,特征集中只保留'type','count
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值