Decision Tree

最新推荐文章于 2022-05-18 16:00:35 发布

一轮子

最新推荐文章于 2022-05-18 16:00:35 发布

阅读量804

点赞数

分类专栏：数据科学文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ddyyll988/article/details/54884459

版权

数据科学专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Decision Tree Classifier

Decision Tree Classifier

from sklearn.tree import DecisionTreeClassifier as DTC

y = df.target
X = df.features

dtc = DTC(criterion='entropy', mim_samples_slit=20, random_state=90)
dtc.fit(X, y)

official example

from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state=0)
iris = load_iris()
cross_val_score(clf, iris.data, iris.target, cv=10)

Visualizing the tree

in advance you should install Graphviz

from sklearn.tree import export_graphviz
def visualize_tree(tree, feature_names):
    """Create tree png using graphviz.

    Args
    ----
    tree -- scikit-learn DecsisionTree.
    feature_names -- list of feature names.

    usage
    ---
    features = X.columns
    visualize_tree(dtc, features)
    """
    with open("dt.dot", 'w') as f:
        export_graphviz(tree, out_file=f,
                        feature_names=feature_names)

    #generate png
    command = ["dot", "-Tpng", "dt.dot", "-o", "dt.png"]
    #or pdf
    #command = ["dot", "-Tpdf", "dt.dot", "-o", "dt.pdf"]
    try:
        subprocess.check_call(command)
    except:
        exit("Could not run dot, ie graphviz, to "
             "produce visualization")

    #open image
    from PIL import Image
    im = Image.open("od.png")
    im.show()

Decision Tree Regression

DecisionTreeRegressor

Decision Tree Regression with AdaBoost

from sklearn.tree import DecisionTreeRegressor

regr = DecisionTreeRegressor(max_depth=2)
regr.fit(X, y)
y_predict = regr_1.predict(X_test)

ID3 (Iterative Dichotomiser)

属性集合 $A=\{a_1,a_2,\dots,a_m\}$ 如{身高,体重,是否近视}

样本集合 $D=\{(x_1;y_1),(x_2;y_2),\dots,(x_m;y_m)\}$ 如{(身高175,体重63,近视1;不符合应聘要求0),…}

根据某属性a的划分 $D^1,D^2,\dots$

informathin entropy

E n t (D) = - \sum k = 1 | m | p k l o g 2 p k

$Ent(D)=-\sum\limits_{k=1}^{|m|}p_klog_2p_k$

$p_k$ 是每类样本占当前样本集合 $D$ 中的比例

Ent越小纯度越高

决策树根节点的D包含所有样本，如果y只有0,1两个取值，正3个负2个，则

E n t (D) = - (2 5 l o g 2 2 5 + 3 5 l o g 2 3 5)

$Ent(D)=-(\frac{2}{5}log_2\frac{2}{5}+\frac{3}{5}log_2\frac{3}{5})$

information gain

根据某属性a划分得到 $D^v(v=1,2,\dots,V)$

G a i n (D, a) = E n t (D) - \sum v = 1 V | D v | | D | E n t (D v)

$Gain(D,a)=Ent(D)-\sum\limits_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)$

Gain越大划分得到的纯度提升越高

example

假设有A = {行为习惯，饮食偏好, 体育运动}三个属性，判断是否会得某种病。

总共6个得病9个不得

行为习惯	得病	不得病	得病占该习惯总数比例	该行为习惯占总人数的比例
抽烟	1	5	1/6	6/15
喝酒	2	3	2/5	5/15
吸毒	3	1	3/4	4/15

E n t (D) = - (6 15 l o g 2 6 5 + 9 5 l o g 2 9 5)

$Ent(D)=-(\frac{6}{15}log_2\frac{6}{5}+\frac{9}{5}log_2\frac{9}{5})$
根据行为习惯划分出抽烟，喝酒，吸毒三个子集

D1,D2,D3 $D^1,D^2,D^3$

E n t (D 1) = - (1 6 l o g 2 1 6 + 5 6 l o g 2 5 6) E n t (D 2), E n t (D 3) 同 理

$Ent(D^1)=-(\frac{1}{6}log_2\frac{1}{6}+\frac{5}{6}log_2\frac{5}{6})\\ Ent(D^2),Ent(D^3)同理$

G a i n (D, 行 为 习 惯) = E n t (D) - (6 15 E n t (D 1) + 5 15 E n t (D 2) + 4 15 E n t (D 3))

$Gain(D,行为习惯) = Ent(D) - (\frac{6}{15}Ent(D^1)+\frac{5}{15}Ent(D^2)+\frac{4}{15}Ent(D^3))$

之后再算 $Gain(D,饮食偏好)$

假设 $Gain(D,行为习惯)>Gain(D,饮食偏好)>Gain(D,体育运动)$

那么分别取 $D^1,D^2,D^3$ 为新的D，剩下的属性为A={饮食偏好，体育运动} ，进行迭代算 $Gain(D,饮食偏好)$ 和 $Gain(D,体育运动)$

C4.5

基于增益率(gain ratio)减少ID3偏好可取数目多带来的影响。

剪枝

预剪枝

划分训练集和测试集。

如果使用某一划分，算出验证集精度。

如果停止划分采用样本中占多数的结果作为该分支结果，计算精度。

如果停止划分精度反而更高则停止划分。

后剪枝

从完整的决策树的倒数第二个节点开始。

如果剪掉倒数第一个节点精度提高则剪掉。

依次往上类推

连续数据

采用二分法划分，既划分成 $\le t$ 和 $> t$ , t取遍两个相邻离散数据的平均值然后找出信息熵增Gain最小的。

缺失值处理

先算出对该属性而言无缺失值的Entropy, 然后计算出对该属性而言无缺失值的Gain。

然后乘上无缺失值样本所占比例 $\rho$ 最终的Gain。

多变量决策树(multivariate decision tree)

使用斜线来划分多变量。

既用多变量的线性组合 $W\cdot Attribtes \le t?$ 来划分。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。