决策树可以用于分类和回归
算法有ID3、C4.5、C5.0和CART
ID3选择属性用的是信息增益,该度量基于熵,选择具有最高信息增益的属性作为分裂属性;信息增益倾向于选择具有大量值的属性,当考虑作为唯一标识符的属性如ID时,是没有意义的。
C4.5选择属性用是信息增益
率
C5.0在C4.5基础上有所改进,占内存小,更精确
CART(Classification and Regression Trees)与C4.5很相似,但是它支持数值型的目标变量(回归),只做二元切分
scikit-learn使用一种优化的CART算法。
DecisionTreeClassifier是一个能处理分类(二元或多元)的类。
from sklearn.metrics import precision_recall_curve
precision_recall_curve()方法返回准确率、召回率以及
print(clf.feature_imp ortances_) 输出每个特征的影响力,越大表示该特征在分类中起的作用越大
准确率(precision)和召回率(recall):
precision=分类器断言为正类的那部分记录中,实际为正类的记录所占的比例
recall=被分类器正确预测的正样本的比例,即正确预测的正样本记录数占 实际正样本记录的比例