基本概念:训练集、测试集、特征集、监督学习、非监督学习、分类、回归
机器学习中分类和预测算法的评估:准确率、速度、强壮性、可规模性、可解释性
监督学习(supervised learning):训练集有类别标记(class label)
无监督学习(unsupervised learning):训练集无类别标记
半监督学习(supervised learning):有类型标记+无类别标记的训练集
1、什么是决策树(decision tree)?
判定树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或者类分布。树的最顶层是根结点。
2、熵(entropy)
信息和抽象,如何度量?
信息量的度量就等于不确定性的大小
变量的不确定性越大,熵越大。
3、决策树归纳算法(ID3)
1870-1980,ID3算法
选择属性判断结点
信息获取量(Information Gain): Gain(A)=Info(D)-Infor_A(D)
算法:
(https://img-blog.csdn.net/20170406190424786?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvanV6aXNhbjM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
其他算法:C4.5、CART
树剪枝叶(overfitting)