一 什么是决策树
决策树算法是一种常用的机器学习算法,它通过构建一棵树状结构来进行决策和分类。决策树算法的基本思想是根据特征属性的取值将数据集划分为不同的子集,然后递归地对子集进行划分,直到达到某个终止条件。
决策树优点
1、易于理解和解释
2、能够处理多类别问题
3、能够处理缺失值和异常值等
4、还可以通过剪枝等方法来避免过拟合问题。
决策树缺点
1、对于连续型数据处理不够灵活
2、容易受到噪声和异常值的影响
二 通过案例理解决策树
有以下案例,通过头发和声音判断学生性别
头发 | 声音 | 性别 |
---|---|---|
长 | 粗 | 男 |
短 | 粗 | 男 |
短 | 粗 | 男 |
长 | 细 | 女 |
短 | 细 | 女 |
短 | 粗 | 女 |
长 | 粗 | 女 |
长 | 粗 | 女 |
此案例有两种判断方法
一是先按头发长短判断,再按声音粗细判断,判断过程如下图
该图就是一个简单的决策树,决策树就是一个简单的分类系统
还有另外一种判断方法,即酰胺声音粗细判断,再按头发长短判断
三 通过ID3算法选出更优决策树
决策树ID3算法是一种经典的机器学习算法,用于构建决策树模型。它基于信息增益的概念,通过计算每个特征对于分类结果的贡献度,选择信息增益最大的特征作为当前节点的划分特征,递归地构建决策树。
根据概念我们知道ID3算法是通过信息增益划分特征,那么什么是信息增益?怎么计算信息增益?
信息增益是指在决策树算法中,通过计算每个特征对于分类结果的贡献程度,选择具有最大信息增益的特征作为划分标准。它是一种用于特征选择的方法,可以帮助我们找到最具有区分性的特征,从而提高分类的准确性。
信息增益的计算公式为:
信息增益 = H(D) - H(D|A)
其中,H(D)表示数据集D的熵,H(D|A)表示在特征A给定的条件下,数据集D的条件熵。信息增益越大,表示特征A对于分类结果的贡献越大。
在信息增益的计算公式中我们了解信息增益是由数据集的信息熵减去在某个特征下数据集的信息熵,那么什么又是信息熵?信息熵又该如何计算呢?
信息熵用来衡量信息的不确定性或者随机性。它可以用来描述一个系统中信息的平均不确定性程度。
信息熵的计算公式为:H(X) = -Σp(x)log2p(x)
其中p(x)表示随机变量X取值为x的概率。
我们了解了信息熵和信息增益后就可以找到刚才两个决策树中更优的一个,具体过程如下:
信息增益是由数据集的信息熵减去在某个特征下数据集的信息熵,首先我们要计算数据集总的信息熵
H(D)= -3/8 * log2(3/8) -5/8 * log2(5/8) = 0.9544
第一个决策树是先按头发长短判断的,所以我们计算在头发长短条件下的信息熵
H(D|长发)= -1/4 * log2(1/4) -3/4 * log2(3/4) = 0.8113
H(D|短发) = -2/4 * log2(2/4) -2/4 * log2(2/4) = 1
H(D|头发)= 4/8 * 0.8113 + 4/8 * 1 = 0.9057
信息增益 = H(D)- H(D|头发)= 0.9544 - 0.9057 = 0.0487
另一个决策树是先按声音粗细判断的,所以我们计算在声音粗细条件下的信息熵
H(D|声音粗)= -3/6 * log2(3/6) -3/6 * log2(3/6) = 1
H(D|声音细)= -2/2 * log2(2/2) = 0
H(D|声音)= 6/8 * 1 + 2/8 * 0 = 0.75
信息增益 = H(D)- H(D|声音)= 0.9544 - 0.75 = 0.2087
对比可知先按声音特征分类,信息增益更大,区分样本的能力更强,更具有代表性。
四 python实现ID3算法
from math import log
import operator
def calcshannonEnt(dataset): #计算数据的嫡(entropy)
numEntries = len(dataset) # 数据条数
labelcounts = {}
for featvec in dataset:
currentLabel = featvec[-1] # 每行数据的最后一个字(类别)
if currentLabel not in labelcounts.keys( ):
labelcounts[currentLabel] = 0
labelcounts[currentLabel] += 1 # 统计有多少个类以及每个类的数量
shannonEnt = 0
for key in labelcounts:
prob = float(labelcounts[key]) / numEntries # 计算单个类的嫡值
shannonEnt -= prob*log(prob,2)#累加每个类的嫡值
return shannonEnt
def createDataset1():# 创造示例数据
dataset = [['长', '粗', '男'],
['短', '粗', '男'],
['短', '粗', '男'],
['长', '细', '女'],
['短', '粗', '女'],
['短', '细', '女'],
['长', '粗', '女'],
['长', '粗', '女']]
labels = ['头发', '声音']#两个特征
return dataset, labels
def splitDataset(dataset,axis,value):#按某个特征分类后的数据
retDataSet = []
for featvec in dataset:
if featvec[axis] == value:
reducedFeatvec = featvec[: axis]
reducedFeatvec.extend(featvec[axis + 1:])
retDataSet.append(reducedFeatvec)
return retDataSet
def chooseBestFeatureToSplit(dataset): #选择最优的分类特征
numFeatures = len(dataset[0]) - 1
baseEntropy = calcshannonEnt(dataset) # 原始的嫡
bestInfoGain = 0
bestFeature = -1
for i in range(numFeatures):
featlist = [example[i] for example in dataset]
uniquevals = set(featlist)
newEntropy = 0
for value in uniquevals:
subDataset = splitDataset(dataset, i, value)
prob = len(subDataset) / float(len(dataset))
newEntropy += prob * calcshannonEnt(subDataset) # 按特征分类后的嫡
infoGain = baseEntropy - newEntropy#原始嫡与按特征分类后的嫡的差值
if (infoGain > bestInfoGain): # 若按某特征划分后,嫡值减少的最大,则次特征为最优分类特征
bestInfoGain = infoGain
bestFeature = i
return bestFeature
def majorityCnt(classList):#按分类后类别数量排序,比如:最后分类为2男1女,则判定为男;
classcount = {}
for vote in classList:
if vote not in classcount.keys():
classcount[vote] = 0
classcount[vote] += 1
sortedclasscount = sorted(classcount.items(), key=operator.itemgetter(1), reverse=True)
return sortedclasscount[0][0]
def createTree(dataSet,labels) :
classList = [example[-1] for example in dataSet] # 类别:男或女
if classList.count(classList[0]) == len(classList):
return classList[0]
if len(dataSet[0]) == 1:
return majorityCnt(classList)
bestFeat = chooseBestFeatureToSplit(dataSet) # 选择最优特征
bestFeatLabel=labels[bestFeat]
myTree = {bestFeatLabel: {}}# 分类结果以字典形式保存
del(labels[bestFeat])
featvalues = [example[bestFeat] for example in dataSet]
uniquevals = set(featvalues)
for value in uniquevals:
subLabels = labels[:]
myTree[bestFeatLabel][value] = createTree(splitDataset\
(dataSet, bestFeat, value), subLabels)
return myTree
if __name__ == '__main__':
dataset, labels=createDataset1() #创造示列数据
print(createTree(dataset, labels)) # 输出决策树模型结果
输出结果