决策树
信息论基础
信息熵
信息增益
信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
信息增益的计算
信息熵
条件熵
信息熵的大小变化是和不确定性相关
举个栗子
根据各特征的信息增益的大小来选择决策树分叉的标准,信息增益越大越可以把类别分开
另外,还需要知道的是,除了信息增益之外,还有其他的划分依据,比如gini系数等,意思差不多,算法不一样
决策树API
决策树的优缺点
决策树虽然在实际问题处理中很少使用,但是非常重要,因为随机森林等算法是基于决策树的
随机森林
随机森林是一种集成算法,由多棵决策树组成
集成算法就是由多个相同的分类器组成的算法
随机森林API:
sklearn.ensemble.RandomForestClassifier()