这篇总结一下《数据挖掘导论》中的分类部分:
分类
- 含义:确定对象属于哪个预定义的目标类。通过学习得到一个目标函数(target function)f,把每个属性集x映射到一个预先定义的类标号y。
- 类标号:离散属性(区别于回归,回归的目标属性是连续的)
- 作用:
- 描述性建模:作为解释性的工具,区分不同类的对象。
- 预测性建模:预测未知记录的类标号。
- 一般方法:用一种学习算法(learning algorithm)确定分类模型,该模型能够很好的拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据,还要能正确的预测未知样本的类标号。
- 性能评估:混淆矩阵(confusion matrix)
决策树
- 结构:由结点和有向边组成的层次结构
- 决策树的建立(Hunt 算法)
- 方法:通过将训练记录相继划分成较纯的子集,以递归的方式建立决策树。
- 如果与结点t相关联的训练集(Dt)中所有记录都属于同一个类y,则t是叶节点,用y_t标志。
- 如果Dt中包含属于多个类的记录,则选择一个属性测试条件(attribute test condition),将记录划分成较小的子集。对于测试条件的每个输出,创建一个子女结点,并根据测试结果将Dt中的记录分布到子女结点中。然后对每个子女结点,递归的调用该算法。
- 选择最佳划分:根据划分后子女结点不纯性的程度,不纯的程度越低,类分布就越倾斜。
- 方法:通过将训练记录相继划分成较纯的子集,以递归的方式建立决策树。